More than 5 years have passed since last update.

pythonを用いた統計的仮説検定、信頼区間推定方法まとめ

Last updated at 2021-02-22Posted at 2018-10-30

Abstract

実験結果やアンケートの回答結果などのデータに対して、結果に有意差があるか数値的に検証する際に重要な、統計的仮説検定や信頼区間推定を行うためのpythonスクリプトを実装しました。

pythonさえ使えれば誰でもすぐに、手元のデータを分析することができます。

実装リスト

(各手法のリンクから、実装されているgithubページへ飛べます)

統計的仮説検定 (Statistical Hypothesis Tests)

	パラメトリック検定 (Parametric test)	ノンパラメトリック検定 (Non-parametric test)
対応なし2群 (Compare two unpaired groups)	対応なしt検定 (Unpaired t test)	マン・ホイットニーのU検定 (Mann-Whitney U test)
対応あり2群 (Compare two paired groups)	対応ありt検定 (Paired t test)	ウィルコクソンの符号付き順位検定 (Wilcoxon Signed-rank test)
対応なし他群 (Compare more than two unpaired groups)	分散分析 (ANOVA)	クラスカル・ウォリス検定 (Kruskal-Wallis test)
対応あり他群 (Compare more than two paired groups)	*反復測定分散分析 (Repeated-measures ANOVA)	フリードマン検定 (Friedman test)

*反復測定分散分析に関してはscipyに実装されていなかったため無いです、すいません。

等分散の検定(Levene's test)

信頼区間の推定 (Confidence Interval Estimation)

多くの論文(特にHuman Computer Interaction分野)で使用されている代表的な手法(マン・ホイットニーのU検定やウィルコクソンの符号付き順位検定など)はほとんど実装してあるかと思います。

ご自由にお使いください。
以上のpythonスクリプトはこちらのgithubリポジトリにまとめてあります。

注意) これらのスクリプトは既存の統計システムを用いてチェックしたものですが、100%正しい保証はないです。実際に論文等で使用される際は，使用される方ご自身の責任において行っていただきますようお願いいたします。

私自身、論文で使用してたりするので、もしミスがあったら教えていただけるとホントに助かります。

対象

統計的仮説検定や信頼区間推定についてある程度理解している人
論文などを執筆する際に、今すぐ集めたデータの検定や信頼区間推定を行いたい人
pythonが使える人

対象じゃない人

仮説検定や信頼区間推定の理論についてしっかり学びたい人
一応、各検定のスクリプトがアップロードされているページに、各検定について気休め程度の説明が載ってますが、自分の備忘録として書いたもので人に説明できるような代物ではないです。

先ほどのリポジトリ内にも検定に関する基礎知識について幾つか説明的資料がありますが、こちらも気休め程度です。期待しないでください。

ちゃんと勉強したい人には個人的に以下の資料をオススメしておきます。(後者は無料の資料(ただし英語)です)

使い方

細かい使い方は、各スクリプトがアップロードされてあるページにREADMEとして載せてあるので、ここでは基本的な使い方を説明します。

一つの検定or推定に対しそれぞれ独立したフォルダが用意されており，中には
　　・検定を行うpythonスクリプト(XXXX.py)
　　・データ貼り付け用csvファイル(testData.csv)
が入ってます。

基本的な使い方は単純で
　　① データの準備
　　② 実行
　　③ 結果を眺める
だけです。

必要なもの

python3
scipy (0.19.1)
pandas (0.20.3)

① データの準備

実行したいスクリプトと同じディレクトリにあるtestData.csvにデータを書き込んで保存します。

その際

先頭はデータのグループ名を書く
各データは,で区切りながら書く

ということだけ注意してください。

例)

testData.csv

GroupA,2,4,3,1,2,3,3,2,3,1
GroupB,3,5,4,2,4,3,5,5,3,2
GroupC,2,1,1,1,2,3,2,2,2,3
GroupD,3,4,5,2,3,3,5,2,3,5

(大量にデータがあっていちいち全部書くのが面倒な人は、データを出力する際に上の条件を満たすようなcsvファイルを出力するようなスクリプトを頑張って書いてください)

それぞれの検定ごとに、ほんの少し追加のルール（グループの数など）があるので、そちらはREADMEを参照してください。

② 実行

実行したいスクリプトがあるディレクトリに移動し、スクリプトを実行してください。

例）マン・ホイットニーのU検定を行う場合

$ python mann-whitney-u-test.py

③ 結果

p値が出力されます。
有意差が確認された場合は結果に*が付きます。

$ python mann-whitney-u-test.py

       GroupA            GroupB           GroupC             GroupD
GroupA      -  *0.0192043876643    0.11541267853   *0.0290956779717
GroupB      -                 -  *0.001695333779     0.437412800807
GroupC      -                 -                -  *0.00206574468142
GroupD      -                 -                -                  -

以上です。

最後までお読みいただきありがとうございます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up