1、プログラミング以前の統計の話。ウィルコクソンの順位和検定、ウィルコクソンの符号順位検定。そもそもこの二つをきちんと分けて考えられていなかったことを反省して、メモ。
引用
「ウィルコクソンの順位和検定 (Wilcoxon rank sum test) を行う.本検定法は,ウィルコクソンの符号順位検定 (Wilcoxon signed rank test) とは明確に異なる検定法である.」
https://qiita.com/s-wakaba/items/0e4f726e1e9bb5331fb5
http://data-science.gr.jp/implementation/ist_r_wilcoxon_rank_sum_test.html
2、ScipyとRで関数名自体を使い分けるか、引数に条件を追加するか、が違うことがさらにややこしい。
3、Scipy では 片側検定がデフォルト。なぜこんな仕様なの?
alternative='two-sided'を引数にいれないといけない。当然、値が大きく異なる。
4,連続補正の考え方、扱い方について
私が使ったデータセットは正規分布しない顧客年齢。
wilcox.testで連続補正有無、Exact引数の有無でほとんどP値に差はなかった。繰り返しだが、片側両側検定の違いが大きいので、Scipy使用時の引数には注意。
http://namelesscity.hatenadiary.com/entry/2018/01/10/114725
以下は連続補正(correct引数)や対応のある検定(paired引数)で混乱した質問者の質疑応答。
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10121374345