統計解析のためのプログラミング言語であるRは、その豊富な機能と柔軟性から、研究者やデータサイエンティストに広く使用されています。Rを用いた統計解析では、様々な手法を駆使してデータの理解やモデル構築を行います。この記事では、Rにおける代表的な統計検定について、基本的な使い方から応用的な手法まで、詳細に解説します。
1. t検定(t-test)
t検定は、2つのグループの平均を比較するために使用される基本的な統計手法です。特に、標本のサイズが小さい場合やデータが正規分布している場合に有効です。Rでのt検定はt.test()
関数を使用して実施できます。

実例
仮に、2つのグループ(男性と女性)の身長データがあり、その差が統計的に有意かどうかを検証したい場合、次のようにコードを記述します。
R# データ作成
男性 <- c(170, 175, 180, 165, 168)
女性 <- c(160, 158, 162, 165, 170)
# t検定
結果 <- t.test(男性, 女性)
print(結果)
このコードでは、t.test()
関数を使用して男性と女性の身長の差を検定します。結果にはp値、平均、信頼区間などが含まれます。
2. 分散分析(ANOVA)
分散分析(ANOVA)は、3つ以上のグループ間で平均の差異があるかを検定する手法です。Rでは、aov()
関数を使ってANOVAを実行することができます。
実例
3つの異なる薬剤(A、B、C)が治療効果に与える影響を比較する場合のコードは次の通りです。
R# データ作成
薬剤A <- c(5, 6, 7, 8, 5)
薬剤B <- c(6, 7, 8, 7, 6)
薬剤C <- c(7, 8, 7, 8, 9)
# データフレームにまとめる
データ <- data.frame(
効果 = c(薬剤A, 薬剤B, 薬剤C),
薬剤 = factor(rep(c("A", "B", "C"), each=5))
)
# ANOVAの実行
結果 <- aov(効果 ~ 薬剤, data=データ)
summary(結果)
ここでは、薬剤ごとの効果に差があるかを検定しています。結果には、F値やp値が表示され、群間の差が有意かどうかが分かります。
3. カイ二乗検定(Chi-squared test)
カイ二乗検定は、カテゴリカルデータの適合度や独立性を検定するために使用されます。Rではchisq.test()
関数を用いて実行できます。
実例
たとえば、性別(男性、女性)と職業(エンジニア、医師、教師)の関連があるかどうかを調べたい場合のコードは以下のようになります。
R# クロス集計表の作成
データ <- matrix(c(30, 10, 25, 20, 15, 40), nrow=2, byrow=TRUE)
colnames(データ) <- c("エンジニア", "医師", "教師")
rownames(データ) <- c("男性", "女性")
# カイ二乗検定
結果 <- chisq.test(データ)
print(結果)
このコードでは、性別と職業の関係における独立性を検定します。カイ二乗検定の結果、p値が0.05未満であれば、性別と職業には統計的に有意な関連があると判断できます。
4. 相関分析(Correlation Analysis)
相関分析は、2つの変数間の関連性の強さを測定する手法です。Rでは、cor()
関数を用いて相関係数を計算できます。また、相関の有意性を調べるためには、cor.test()
を使用します。
実例
例えば、体重と身長の間にどのような相関があるかを調べる場合のコードは以下の通りです。
R# データ作成
身長 <- c(170, 165, 180, 175, 160)
体重 <- c(70, 65, 80, 75, 60)
# 相関係数の計算
相関係数 <- cor(身長, 体重)
print(相関係数)
# 相関の有意性を検定
結果 <- cor.test(身長, 体重)
print(結果)
ここでは、身長と体重の間の相関係数を計算し、その有意性を検定しています。結果としてp値が得られ、相関が統計的に有意かどうかを判断できます。
5. 回帰分析(Regression Analysis)
回帰分析は、1つまたは複数の説明変数を使って目的変数を予測するための手法です。線形回帰分析はRのlm()
関数を使って実行します。
実例
以下のコードでは、年齢と収入を使って収入を予測する線形回帰モデルを構築しています。
R# データ作成
年齢 <- c(25, 30, 35, 40, 45)
収入 <- c(300, 350, 400, 450, 500)
# 線形回帰モデル
モデル <- lm(収入 ~ 年齢)
summary(モデル)
summary()
関数を使って回帰分析の結果を要約します。回帰係数やp値を確認することができ、モデルがデータにどれほど適合しているかを評価できます。
6. ロジスティック回帰(Logistic Regression)
ロジスティック回帰は、目的変数が二項型(例えば、成功/失敗、はい/いいえ)の場合に使用されます。Rではglm()
関数を使ってロジスティック回帰を行います。
実例
例えば、ある薬剤の投与が治療の成功に影響を与えるかを調べる場合、以下のコードを使用します。
R# データ作成
投与 <- c(1, 1, 0, 0, 1, 0, 1, 0)
成功 <- c(1, 1, 0, 0, 1, 0, 1, 0)
# ロジスティック回帰モデル
モデル <- glm(成功 ~ 投与, family=binomial)
summary(モデル)
このモデルでは、投与が成功にどのように影響するかを調べます。出力結果にはオッズ比やp値が含まれており、統計的に有意な結果を確認できます。
まとめ
Rによる統計解析は非常に強力で、さまざまな統計的手法を駆使することができます。t検定、ANOVA、カイ二乗検定、相関分析、回帰分析などの手法は、データの理解を深め、結果を有意に解釈するために不可欠です。これらの手法をRで実行することで、データのパターンや傾向をより正確に把握することができ、意思決定において重要な役割を果たします。