R
データ分析
データ解析
More than 1 year has passed since last update.

分析方法の決定

目的変数 説明変数 使えるモデル
連続 連続 線形回帰
離散 離散 ログリニア、カイニ乗検定*、ロジスティック回帰
連続 離散 線形回帰、分散分析、2サンプルT検定*、*1サンプルT検定
離散 連続 ロジスティック回帰

※ *は限定的に使えることを表す
2サンプルT検定=分散分析の二つのカテゴリで1つの変数
回帰分析 > 分散分析 > 2サンプルT検定 > 1サンプルT検定
分散分析できるものは全て回帰分析できる
多重比較 t検定  t = F^2

※重回帰分析に質的変数が入る場合はダミー変数を使う

分析方法 帰無仮説 Rコマンド
1 サンプルT検定 Ho:𝜇ᵢ=𝜇ᵢᵢ t.test(data)
2 サンプルT検定 Ho:𝜇ᵢ=𝜇ᵢᵢ(二つの母平均は等しい) t.test(data1,data2)
logregression(線形回帰)分析 Ho:β = 0(説明変数が応答変数に影響を与えない) lm(y~x,data)
logistic回帰分析 Ho:β = 0(説明変数は応答変数に影響を与えない) glm(y~x,"family=binomial",data)
loglinear (対数線形)モデル loglin(table_data,model,fit,param)
分散分析 Ho:𝜇ᵢ=𝜇ᵢᵢ(母平均は等しい) aov(y~x,data)
多重比較 Tukeyの多重比較、多重T検定(事後・事前) qtukey(1-𝛼,group,df) TukeyHSD(aov(y~x,data))
共分散分析
χ二乗検定 Ho:P(A∩B) = P(A)P(B)(二つの変数は互いに独立である) chisq.test(data)

繰り返しのあると繰り返しのないの違い

 第1要因2水準,第2要因3水準の2×3通りの条件について出汁の良さを審査員が100点満点で評価して,右図1のような表にまとめるものとする.
 第1要因と第2要因を組み合わせた1つの条件に対してN=4人ずつ審査員を割り当てるとき,審査員は2×3×4人必要となる.
 一般に各条件にN人の被験者を割り当てるときには被験者総数は条件の個数×Nとなるが,このNが繰り返しの数となる. ある条件に対して欠損データがある場合など各条件に割り当てる被験者Nが等しくない場合(アンバランスデザイン)でも繰り返しのある分散分析を考えることができる.その場合は,各条件に割り当てられる被験者数N(繰り返しの数)を調和平均を用いて再計算したものを使う.

○ 対応のあると対応のないの違い

 要因が2つあるときに(二元配置)1つの要因を同一被験者が行うような場合を対応のある分散分析といい,被験者による違いを考慮する必要がないので誤差が少なくなり有意差が検出されやすくなる.
 対応の有無は,2要因とも対応が有る場合(被験者内計画),1つは対応があり他の1つは対応がない場合(混合計画),2つとも対応がない場合(被験者間計画)の3種類考えられる.条件がm×n通りあるとき,対応のない分散分析で各条件にN人の被験者を割り当てる場合はm×n×N人の異なる被験者が必要となる.
※Excelの分析ツール,Rコマンダーを使った繰り返しある二元配置分散分析は「対応のない場合」に対応しており,「対応のある場合」を調べるためには各自で計算する必要がある.

分散分析表

要因 平方和S 自由度df 分散V 分散比F
サンプル間A $S_A$ $f_A=a-1$ $V_A=S_A/f_A$ $F_{A0}=V_A/V_e$
サンプル間B $S_B$ $f_B=b-1$ $V_B=S_B/f_B$ $F_{B0}=V_B/V_e$
交互作用A×B $S_{A×B}$ $f_{A×B}=(a-1)(b-1)$ $V_{A×B}=S_{A×B}/f_{A×B}$ $F_{(A×B)0}=V_{A×B}/V_e$
誤差e $S_e$ $f_e=ab(n-1) $ $V_e=S_e/f_e$
合計 $S_T=S_tr+S_e$ $f_T=abn-1$

Rによる出力

Df SumSq MeanSq value Pr(>F)
condition 1 220.9 220.9 23.91 2.10E-05 ***
language 1 176.4 176.4 19.09 0.000101 ***
condition:language 1 122.5 122.5 13.26 0.000846 ***
Residuals 36 332.6 9.24
参考

Rによる統計
私のための統計処理
belcurve
エクセルQC館