西内啓氏著書の「統計学が最強の学問である」と「統計学が最強の学問である実践編」はシリーズ累計 37 万部を突破する異例のベストセラーとなりました。読まれた方も多いのではないでしょうか。
この前後 2 冊では、統計学の教科書に登場する様々な手法を「一般化線形モデル」という考え方に基づき一枚の表にまとめています。
ここではその表を引用致します。
統計学が最強の学問である p170 一般化線形モデルをまとめた一枚の表
統計学が最強の学問である実践編 p344 統計学の理解が劇的に進む 1 枚の表増補版
これらの 2 冊は、ビジネスでよく使う統計手法について、一通りそれらがどういう意味を成しているか、どのようなアイデアから生まれてどう使えばいいかといったことが解説されています。
また上著実践編 p357 では本書では得られない 3 つの知識として
- ツールと実データを使った実践
- 数理面での手法の深い理解
- 近年生まれたより発展的な手法
を挙げています。
今回から特に上記 1. に注目し、今まで使ってきた分析用言語で実践をするにあたり簡単なデータを元に例を挙げていきたいと思います。
とは言っても今までに記述してきた中ですでにおこなっているものもありますので、それらの復習を兼ねて進めていきましょう。
ケースコントロール研究とカイ二乗検定
疫学的推計の最初のものと言われるドールとヒルの「ケースコントロール研究」の話です。
肺がんと喫煙の関連性として 1948 〜 1952 年にかけてイギリス中の病院から 1465 名の肺がんによる入院患者のデータを調査したところ次の通りでした。
人数 | 喫煙者 | 非喫煙者 | |
---|---|---|---|
男性で肺がん患者 | 1357 | 1350(99.5%) | 7(0.5%) |
男性で非肺がん患者 | 1357 | 1296(95.5%) | 61(4.5%) |
女性で肺がん患者 | 108 | 68(63.0%) | 40(37.0%) |
女性で肺がん患者 | 108 | 49(45.4%) | 59(54.6%) |
疫学におけるケースとは症例つまり病気となった事例 (患者) のことであり、コントロールとはその比較対照のことです。
このデータに対しカイ二乗検定をおこなうと結果は次のようになります。
import scipy as sp
import scipy.stats as stats
# 男性のデータ (肺がん患者と非肺がん患者)
man = sp.array([[1350, 7], [1296, 61]])
# 女性のデータ (肺がん患者と非肺がん患者)
female = sp.array([[68, 40], [49, 59]])
def chi_squared_test(data):
"""カイ二乗検定をおこなう関数"""
# カイ二乗値、 p 値、自由度
x2, p, dof, expected = stats.chi2_contingency(data)
return x2, p, dof, expected
results = chi_squared_test(man)
results = chi_squared_test(female)
これにより男性については、カイ二乗値は 42.3704259482 p 値は 7.5523446617e-11 自由度は 1 となり、有意な差が認められます。
同じく女性についても、カイ二乗値は 6.04195804196 p 値は 0.0139697819212 自由度は 1 となり、有意な差があります
これにより喫煙の有無が肺がんの症例に影響がないとは言えないことがわかりました。
次回に続きます。