データセット
PythonではScikit-Learnにトイデータとして統計データが多くありますが、あくまで単に集計されたデータで因果ではなく相関までしか学べません(厳密に言えばロジスティック回帰で因果関係の一つは学べますが)。
そこで、因果関係を学ぶにもデータセットが必要なわけですが「ある」んです。
それが、lifelinesというPythonのライブラリにあるデータセットになります。
lifelinesのデータセット↓
集計方法
因果関係を学ぶ上でデータを集める必要があるのですが、そのデータセットはだいたい3パターンあります
- ランダム化比較試験
ある試験的操作(介入・治療など)を行うこと以外は公平になるように,対象の集団(特定の疾患患者など)を無作為に複数の群(介入群と対照群や,通常+新治療を行う群と通常の治療のみの群など)に分け,その試験的操作の影響・効果を測定し,明らかにするための比較研究
ランダム化比較試験(RCT) randomized controlled trial - 一般社団法人 日本理学療法学会連合
- コホート研究
ある特定の疾患の起こる可能性がある要因・特性を考え,対象集団(コホート)を決め,その要因・特性を持った群(曝露群)と持たない群(非曝露群)に分け,疾患の罹患や改善・悪化の有無などを一定期間観察し,その要因・特性と疾患との関連性を明らかにする研究方法です.原則として,コホート研究は介入をせず,観察のみで行われる研究
コホート研究 cohort study - 一般社団法人 日本理学療法学会連合
- 症例対象研究
ある疾患をもつ患者群とそれと比較する対照群に分けて,疾患の特徴や疾患の起こる可能性がある要因にさらされているかどうか,また背景因子の違いなどを比較し,関連を確認するための研究方法
現在の要因や過去にさかのぼった要因を用いるため,横断研究または後ろ向き研究として分類されます
症例対照研究 case control study - 一般社団法人 日本理学療法学会連合
因果関係を構成する要素
疫学の教科書にある因果関係
『基礎から学ぶ 楽しい疫学 第四版』医学書院 中村好一著より引用
- 時間的関係
曝露の時間的な先行(必須項目) - 一致性
複数の疫学研究や観察で同様の関連の観察 - 強固性
高い相対危険 - 量反応関係
曝露量の増加に従って相対危険が上昇 - 必要条件
曝露があったものからのみ疾病が発生 - 十分条件
曝露があったものは必ず疾病が発生 - 整合性
疫学以外の科学的知見と矛盾しない
引用終わり
疫学四原則
- 時間的関係性
損害発生と工事施工時期との間に時間的な相違が無い事 - 量的相関性
損害程度が工事の位置関係において量的な相関(近ければ沈下が大きいなど)があること - 質的相関性
損害内容が、類似事例などから考えられる工事損害等の特性と質的内容的に相関(損傷形態や特徴が一致)があること。 - 原因と結果の関連性
工事(原因)が作用して損害(結果)に至るまでのメカニズムが矛盾なく説明できること。
引用終わり
相対危険
『基礎から学ぶ 楽しい疫学 第四版』医学書院 中村好一著より引用
2つの集団間の疾病頻度の比
引用終わり
例えば
転帰 | ||
あり | なし | |
治療群 | a | b |
対照群 | c | d |
で治療をして転帰があった人と治療をせず転帰があった人を比べる場合
RR=\frac{\frac{a}{a+b}}{\frac{c}{c+d}}
となる。
統計検定2級の範囲
統計検定2級では実験計画法と仮説検証を行う。
ここで、実験計画法が先述した集計方法に繋がります。
分かりやすく実験計画を行い因果推論をしている動画を紹介します。
この動画では(後編ですけど)実験をしてそこで得られた評価値である結果(沸騰までの時間)と実験の因子から推論をしています。
実はこのプロセスは仮説検証におけるt検定の平均値の差の部分で、これにt分布を当てはめるとt検定になります。
また、こういった評価値についての効果検証をすることを一般には因果推論とも呼ばれます。
因果推論についてはこの本が学びやすいです。