LoginSignup
0
0

[統計] Rで統計的検定

Last updated at Posted at 2023-12-21

テストデータの入力

df <- data.frame(
      X = c(46, 28, 46, 37, 32, 41, 42, 45, 38, 44,
            42, 60, 32, 42, 45, 58, 27, 51, 42, 52),
      Y = c(38, 33, 26, 25, 28, 28, 26, 27, 27, 27,
            31, 30, 27, 29, 30, 25, 25, 24, 27, 30)
      )

Welchのt検定

データの種類

  • 対応がない
  • パラメトリック
  • 等分散、不等分散どちらでも可
    (等分散検定を行うくらいなら最初からWelchのt検定を使った方が良いらしい。)
t.test(x=df$X, y=df$Y)
 	Welch Two Sample t-test

data:  df$X and df$Y
t = 6.8338, df = 24.128, p-value = 4.427e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 10.01736 18.68264
sample estimates:
mean of x mean of y 
    42.50     28.15 

Studentのt検定

データの種類

  • 対応がない
  • パラメトリック
  • 等分散
t.test(x=df$X, y=df$Y, var.equal=TRUE)
	Two Sample t-test

data:  df$X and df$Y
t = 6.8338, df = 38, p-value = 4.13e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 10.09909 18.60091
sample estimates:
mean of x mean of y 
    42.50     28.15 

t検定の頑健性について

以下、統計分析研究所アイスタットのWEBサイトより引用です。

t検定(スチューデントのt検定)

母集団の正規性については、t検定は頑健だといわれている。それは、サンプルサイズが十分大きければ母集団が正規分布でなくとも検定統計量はt分布に近づくからである。「サンプルサイズが十分大きい」の目安は30で、2群合わせると60である。
言い換えれば2群合わせたサンプルサイズが60以上であれば母集団が正規分布でなくてもt検定は適用できるということである。サンプルサイズが60に満たない場合の母平均の差の検定はノンパラ検定を適用する。

ウェルチのt検定

母集団の正規性については、t検定同等この検定も頑健だといわれている。それは、サンプルサイズが十分大きければ母集団が正規分布でなくとも検定統計量はt分布に近づくからである。「サンプルサイズが十分大きい」の目安は30で、2群合わせると60である。言い換えれば2群合わせたサンプルサイズが60以上であれば母集団が正規分布でなくてもウェルチのt検定は適用できるということである。
サンプルサイズが60に満たない場合の母平均の差の検定はノンパラ検定を適用する。

パラメトリック検定とノンパラメトリック検定の使いわけ

母平均の差の検定

ノンパラメトリック検定は、母集団の分布を仮定しない便利な検定法である。基本的には,調査、実験で得られたデータに対する仮説検定の際にはノンパラメトリック検定を実行することは間違いではない。特に、得られたデータサイズが小さいときはパラメトリックな方法で検定すると検出力が低下するため、ノンパラメトリックな方法を選択した方が良い。
しかしながら、欠点も存在する。本来パラメトリック検定を行うことができるデータに対してノンパラメトリック検定を行うと、帰無仮説を棄却できるのにも関わらず帰無仮説を採用してしまう確率が大きく上昇する。得られたデータに対し、適切な検定法を選定することは重要である。

Wilcoxonの順位和検定(U検定)

データの種類

  • 対応がない
  • ノンパラメトリック


パッケージのインストール

install.packages("coin")

基本的な使い方はこんな感じ↓
wilcox_test([配列] ~ [ラベル], distribution="exact")

library(coin)

# テストデータの入力
X <- c(1,2,1,1,1,1,1,1,1,1,2,4,1,1)
Y <- c(3,3,4,3,1,2,3,1,1,5,4)
labels <- factor(c("x","x","x","x","x","x","x","x","x","x","x","x","x","x","y","y","y","y","y","y","y","y","y","y","y"))

wilcox_test(c(X,Y) ~ labels, distribution="exact")
	Exact Wilcoxon-Mann-Whitney Test

data:  c(X, Y) by labels (x, y)
Z = -2.6934, p-value = 0.00669
alternative hypothesis: true mu is not equal to 0

Wilcoxon の符号付順位検定(サインランク検定)

データの種類

  • 対応がある
  • ノンパラメトリック


データの指定方法が符号順位検定(U検定)と少し異なる
wilcoxsign_test([データ1] ~ [データ2], zero.method=[0の処理法], distribution="exact")

[0の処理方法]
zero.method="Prat":順位変換後に除去(デフォルト/省略可能)
zero.method="Wilcoxon":除去後に順位変換


パッケージのインストールと読み込み

install.packages("coin")
library(coin)

zero.method='Pratt'の場合

# テストデータの入力
X <- c(1,2,1,1,1,1,1,1,1,1,2)
Y <- c(3,3,4,3,1,2,3,1,1,5,4)

wilcoxsign_test(X ~ Y, distribution="exact")
	Exact Wilcoxon-Pratt Signed-Rank Test

data:  y by x (pos, neg) 
	 stratified by block
Z = -2.7203, p-value = 0.007812
alternative hypothesis: true mu is not equal to 0

zero.method='Wilcox'の場合

wilcoxsign_test(X ~ Y, zero.method = 'Wilcox', distribution="exact")
	Exact Wilcoxon Signed-Rank Test

data:  y by x (pos, neg) 
	 stratified by block
Z = -2.5552, p-value = 0.007812
alternative hypothesis: true mu is not equal to 0
0
0
14

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0