ノンパラメトリック法
母集団分布
統計学の目的の一つは、実験あるいは観測によって得られたデータに含まれている情報を縮約することである[5]。数値的尺度として縮約される情報としては、
ほとんど多くの場合、観測現象の母集団は観念的な存在であるので、現実の観測データの集合である標本とは異なり、数値的尺度を実際に計算することはできない。しかし、母集団の存在を仮定すれば、その定量化することができる。なお、これら数値的尺度は母集団に対してその分布が存在すれば、その分布の母数(パラメータ)ともなる。
確率論では母数は確率変数の確率分布を特徴付ける数である。
例えば、正規分布の母数は、平均 $ \mu $および分散$ \sigma ^{2} $ である。
12章までは何らかの分布を仮定し、その分布の母数(パラメータ)を活用して検定を行ってきた。それを仮定しなくても使える検定があり、ノンパラメトリック手法とよぶ
ウィルコクソンの順位和検定
ウィルコクソンの順位和検定は得られた2つのデータ間の代表値 (中央値) に差があるかどうかを検定する。二標本に対応がないt検定のノンパラメトリック版。
例1
ウィルコクソンの順位和検定
まず統計検定量である順位和$w_A$を求める
順位和$w_A$ | |||||
---|---|---|---|---|---|
A | 2 | 1 | 6 | 9 | |
B | 4 | 5 | 3 | 7 | 20 |
次に$ P(w_A \leq 9)$を求める
$ w_A$ | 6 | 7 | 8 | 9 | ・・・ | 計 |
---|---|---|---|---|---|---|
場合の数 | 1 | 1 | 2 | 3 | ・・・ | ${{}_7 C_3}=35$ |
$(1+1+2+3)/35 = 1/5$
例2
並べ替え検定
まずは統計検定量である$\bar{x_A}$を求める
$(30+20+52)/3 = 34$
次に$ P(\bar{x_A} \leq 34)$を求める
$ \bar{x_A}$ | 85/3 | 30 | 95/3 | 100/3 | 34 | ・・・ | 計 |
---|---|---|---|---|---|---|---|
場合の数 | 1 | 1 | 1 | 1 | 1 | ・・・ | ${{}_7 C_3}=35$ |
$(1+1+1+1+1)/35 = 1/7$
ウィルコクソンの符号付き順位検定
https://data-science.gr.jp/theory/tst_wilcoxon_signed_rank_test.html
ウィルコクソンの順位和検定と同様、得られた2つのデータ間の代表値 (中央値) に差があるかどうかを検定する手法。二標本に対応があるt検定のノンパラメトリック版。
ウィルコクソンの符号順位検定 (Wilcoxon signed rank test) とはノンパラメトリック検定のひとつである.名前が似ているウィルコクソンの順位和検定とは異なる検定法なので注意が必要.どちらも2つのデータ間における代表値 (中央値) の差を検定する方法であるが,符号順位検定は得られた2つのデータ間に対応があるときに用いる検定法である.すなわち,ウィルコクソンの順位和検定は,パラメトリック検定でいうところのスチューデントのt検定とかウェルチのt検定に相当するものであり,ウィルコクソンの符号順位検定は,パラメトリック検定でいうところの対応のあるt検定に相当するものであるといえる.
例3
ウィルコクソンの符号付き順位検定
帰無仮説は、「補修前と後の差の分布Dの中央値がゼロ」
まず、5件の観測値がゼロなのでこれを省き、サンプルサイズは$40-5=35$とする。
正規分布近似を用いて、$T_+$は平均$\mu=315$、分散$\sigma=3727.5$の正規分布に従うことがわかる。
ここで、$P(T_+\geq420)$を求める。平均$\mu=315$、分散$\sigma=3727.5$の正規分布を標準化して
$Z=\frac{T_+-\mu}{\sigma}$は標準正規分布となる。$z=1.72$となり、対応表より棄却限界値は1.64程度なので、帰無仮説は棄却され、効果ありと判断できる。
例題13.1
(1)
順位和$w_A$ | ||||
---|---|---|---|---|
A | 4 | 1 | 2 | 7 |
B | 3 | 6 | 5 | 14 |
次に$ P(w_A \leqq 7)$を求める
$ w_A$ | 6 | 7 | ・・・ | 計 |
---|---|---|---|---|
場合の数 | 1 | 1 | ・・・ | ${{}_6 C_3}=20$ |
$(1+1)/20 = 0.1$
(2)
$ w_A$が最小となるの場合の数は、患者数や分け方によらず常に1。
患者数6人(A群3人)の時、組み合わせの合計は${{}_6 C_3}=20$なので、$w_A$は最小で$1/20=0.05$
患者数7人(A群3人)の時、組み合わせの合計は${{}_7 C_3}=35$なので、$w_A$は最小で$1/35=0.0286$
7人いれば0.03を下回れるので、最低7人
(3)
回答のとおり
(4)$t_+$が最大となる場合の数は、すべての符号が正の時なので、患者数によらず常に1。
患者数をnとすると、組み合わせの合計は$2^n$
患者数3の場合、$1/8=0.125$
患者数4の場合、$1/16=0.0625$
患者数5の場合、$1/32=0.03125$
5人いれば0.05を下回れるので、最低5人
符号検定
符号付き順位検定の、順位がないバージョンだと考えればよい。
クラスカル・ウォリス検定
アメリカの数学者 William Henry Kruskal と同じくアメリカの経済学者である Wilson Allen Wallis によって開発された.クラスカル・ウォリス検定はノンパラメトリックにおける一元配置分散分析を行う検定法である.すなわち,3群以上における代表値の差を検定する.一元配置分散分析であるので,どのデータ間に差があるのか,また,いくつのデータ間に差があるのか等の情報は得られない.本検定法でも他のノンパラメトリック検定法と同様,データを順位に置き換えて扱う.また,分布の代表値には平均ではなく,中央値を用いる
一元配置分散分析の参考
http://hs-www.hyogo-dai.ac.jp/~kawano/HStat/?plugin=cssj&page=2009%2F14th%2FANOVA
https://data-science.gr.jp/theory/tst_oneway_anova.html
すなわち,統計量Tは級内の変動に対する級間の変動の比を計算したものであり,分子の級間の変動が分母の級内の変動に対して大きければ大きいほど大きくなる値である.つまり,各水準間に明確な差があるのならばこの値は大きくなる.このような性質を持つ統計量Tは,データが正規分布に従い,かつ等分散が仮定される場合において自由度 kA および kE のF分布に従うことが知られている.よって,この統計量Tが対応するF分布上にてあらかじめ設定した棄却域に入るか否かを考える.帰無仮説が棄却されたら対立仮説を採用し,群間の組み合わせの少なくともひとつに差があると結論する.
例4
クラスカル・ウォリス統計検定
統計検定量$H$を計算すると、実測値9.29(数式略)
自由度3のカイ二乗分布から、7.81(0.05)<9.29<9.35(0.025)より、帰無仮説は棄却される。