「統計的因果探索」（第1章：統計的因果探索の出発点）

Last updated at 2021-01-27Posted at 2021-01-18

はじめに

「ノーベル賞の受賞者数（100万人あたり）」と「チョコレートの消費量（1人あたり）」について、以下のような相関関係があるとする（正の相関）。

「チョコレートの消費量」が多ければ、「ノーベル賞の受賞者数」が多い。

このとき、以下のような因果関係 $A$ があるように見える。

「チョコレートの消費量」を増やせば（原因）、「ノーベル賞の受賞者数」が増える（結果）。

しかし、実際はそうとは限らない。
代わりに、以下のような別の因果関係 $B$ がある可能性もある。

「国内総生産（GDP）」を増やせば（原因）、「チョコレートの消費量」「ノーベル賞の受賞者数」が増える（結果）。

このように、本来はない因果関係があるようにミスリードしてしまう状況を**疑似相関（spurious correlation）**とよぶ。

通常の機械学習は、相関関係を導き出すことができるが、それがどのような因果関係によるものかは導き出すことができない。

一方、統計的因果推論（探索）は因果関係を導き出すことができる。

「ノーベル賞の受賞者数」を変化させるにはどうすればいいかが分かる
- 因果関係 $A$ $\Rightarrow$ 「チョコレートの消費量」を増やせば「ノーベル賞の受賞者数」が増える
- 因果関係 $B$ $\Rightarrow$ 「国内総生産（GDP）」を増やせば「ノーベル賞の受賞者数」が増える

定性的（※）な因果関係を表す以下のような図。矢印始点の事象が原因、矢印終点の事象が結果。
※具体的な値の求め方は与えていない。

観測変数（observed variable）
- 観測（データ収集）されている事象
- 上図の青四角「チョコレートの消費量」「ノーベル賞の受賞者数」
未観測変数（unobserved variable）
- 観測（データ収集）されていない事象
- 上図の緑丸「国内総生産（GDP）」
共通原因（common cause）
- 複数の変数の原因となっている変数
未観測共通原因（hidden common cause）
- 複数の変数の原因となっている未観測変数
- 上図の「国内総生産（GDP）」は「チョコレートの消費量」「ノーベル賞の受賞者数」の未観測共通原因

変数の値が決まる手順のこと。
データ生成過程（data generating process）の具体例は以降の章でも出てくるはずなので、詳細はそちらを参照。

「チョコレートの消費量」を $x$ 、「国内総生産（GDP）」を $z$ とし、両者には上図因果グラフのような因果関係があるとする。
このとき、「チョコレートの消費量」 $x$ のデータ生成過程は以下のように書ける（あくまで線形性を仮定した一例）。

x = \lambda z + e

ここで $e$ を**誤差変数（error variable）**とよぶ。
これは「チョコレートの消費量」の決定に関わる変数が「国内総生産（GDP）」以外にも存在し得るために導入するものであり、そういった変数を全てひとまとめにした変数が誤差変数である。