前置き
統計的因果推論が最近流行ってます。
ざっくりいうと、何かしらの施策をしたときの効果を検証するといったことや、AということがBを引き起こすといったことを議論する分野だと理解しています。
有名な手法だと傾向スコアマッチングや差の差分法、あとは因果関係に関するダイアグラムを構築して多変量解析をするようなものもあります。
前者はRubin流や潜在アウトカム(PO)モデル、後者はPearl流や構造的因果モデル(SCM)と呼ばれたりしています。
こうした分野は主に因果効果(AがBに及ぼす影響の度合い)を適切に測定するものであると理解しています。
私の観測範囲では2020年ごろから現在にかけて『効果検証入門』や『統計的因果推論の理論と実装』、『因果推論入門 〜ミックステープ』といった良書が出版され、かなりのホットワードになっている印象です。
こうした書籍を参考に私も業務で因果効果の測定をしている一方で、①そもそも因果関係ってなんだっけ、②測定しようとしている因果関係が成立しているとみなすにはどういった条件を考えなければならないか、といったことが気になってもやもやしていました。
そこで、ここ数日時間を取って因果関係ってそもそもなんだっけということを考えてきました。
ただ、この辺りの話をまとめて話している文献が見つからず、色々な文献の断片的な情報を自分で整理して理解に努めてきました。
今回は、その中で参照した文献などから重要だと思うところを引用しながら、自分の疑問に自分で答えてみようと思います。
ただし、私はこの分野の研究者でもないので誤って理解していることもあるかもしれません。お気づきの方はご教示いただけると幸いです。
また、今回は因果関係ってそもそもなんだっけということを考えるので、具体的な因果効果の推定については特に触れることはないです。
因果関係の定義
因果推論の関連書籍は因果効果の測定に関する話から始める印象があります。一方で、そもそも因果関係をどのように捉えているのか、ということを明記している書籍は少ないという印象もあります。
そうした中で、因果関係はこうだと明記している研究者にJudea Pearlがいます。
ここではPearlの著作から因果関係を定義づけている部分を抜粋してみます。
ダイアグラムを描くときの「因果関係」の定義は、少し比喩的ではあるが、次のように単純なものになる。すなわち、「変数$Y$が$X$の意見を聞き、その意見に応じて自らの値を決定する場合、変数$X$は$Y$の原因である」というものだ[Pearl&Mackenzie 2012: 30]。
正式には、構造的因果モデルは変数の集合$U$と$V$、また、モデル内の他の変数の値によって$V$のそれぞれの変数の値を決定する関数の集合$f$からなる。ここで、以前約束したように、因果の定義をする。$Y$の値を決定する関数に$X$が使われているとき、$X$は$Y$の直接原因であるという。$X$が$Y$の直接原因であるか、または$Y$の原因の直接原因であるとき、$X$は$Y$の原因であるという。集合$U$にある変数は外生である。つまり、大雑把には、これらの変数は、モデルの外部に存在する、何らかの理由により、これらの変数がどのようにして発生するかは説明されないものである。集合$V$に含まれる変数は、内生である。モデルに使う内生変数は、少なくとも1つの外生変数の子孫になっている。外生変数は、他の変数の子孫であってはならない。外生変数には先祖は存在せず、グラフにおいては源点として示される。すべての外生変数の値が分かれば、関数$f$により、どの内生変数の値も正確に決定される[Pearl et al. 2016: 36]。
上の定義を見るとわかりますが、Pearl流の因果推論において、因果関係とは「変数$X$が原因となって結果$Y$を引き起こす」という関係を意味するものと考えられます。これは我々がやろうとしている因果推論の直感的理解とかなり合致するのかなと思います。原因となる変数$X$を何かしらの値にしたときに、結果となる変数$Y$がある値を取る、ということを我々が測定するからです。
一方で、この解釈はかなりの程度でPearl流の因果関係の考え方に寄っています。X→Yという因果グラフを想定して上記の因果関係の定義付けがされていると考えられそうです。
これに対して、Rubin流と呼ばれる因果推論(上で触れた因果推論の教科書はRubin流の因果推論を中心に議論しています)では反実仮想(ざっくり言うと、現実とは異なる反事実的な世界を想定し、そことの差分を見ることで因果効果を測定すること)を用います。「反実仮想アプローチでは、因果は現実世界と可能世界の間の反事実的関係として捉えられ」[大塚 2020: 200]ています。
こうしたところから、Rubin流とPearl流という二つの大きな分野では因果関係に関する認識に違いがあるように見えます。
ただし、Pearl et al.[2016]の4章で議論されているように、SCMを使って反事実を表現することは可能であり、こうした意味では両者は繋がっています。
ここで重要なことは、POモデルであろうがSCMであろうが$X$という変数がどのような値を取れば$Y$という変数がどのような値を取るのか、を考えているということであり、こうした意味で因果関係とは「変数$X$が原因となって結果$Y$を引き起こす」という関係を意味するものと考えられます。
因果関係を考えるときの条件
上では因果関係とはそもそも何かを定義づけましたが、ここでどのような条件であれば因果関係であると考えられるか、ということについて考えてみたいと思います。
因果関係について考えるときに、考慮すべき重要事項をHill[1965]がまとめています。
一方でHillによる論文は医学や疫学的な観点での説明が多く、そのエッセンスを把握する程度ならGianicolo et al.[2020]を参照すればいいと思います。
- 強度(Strength): 「強度(Strength)」という用語は、エピデミオロジー、統計学、および一般的な研究でよく使われる概念で、特定の変数間(例えば、疾患とリスク要因)の関連性や相関性がどれほど強いかを表します
- 安定的な一貫性(Consistency): 因果は異なる人々によって、異なる場所、状況、時間で何度も観察されているか?を考えます
- 特異性(Specificity): 関連性(association)が特定の要因に限定されており、他の要因候補との間に関連性がない場合、それは明らかに因果関係を支持する強い根拠となります
- 時間性(Temporality): どちらが先で、どちらが後なのか?を考えます。これは関連する変数間の時間的な順序を指します。
- 生物学的勾配(Biological gradient): 「関連性が生物学的勾配、または用量反応曲線を明らかにできるものであれば、そのような証拠を最も慎重に探すべきである」と書かれていました。これはこの論文が主な対象としている生物学に非常に特徴的なものだと思われます。
- 妥当性(Plausibility): 我々が疑う因果関係がその領域の知見に照らし合わせて妥当であれば、それは有用であると考えます。
- 論理的一貫性(Coherence): 私たちのデータに対する因果関係の解釈は、疾患の自然史や生物学に関する一般的に知られている事実と大きく矛盾してはいけない、ということです。
- 実験(Experiment): 実験的、または半実験的な証拠に訴えることが可能です。
- 類推(Analogy): ある状況では、類推によって判断するのが妥当です。一つの事例や状況がもう一つの異なる事例や状況と何らかの重要な点で類似していると考え、その類似性を基に推論や判断を行う方法です。
上のリストは因果関係を考慮する上で重要ではありますが、一方でHill自身が認めているように、これら9つの観点が因果関係をもたらすものではないです。例えば生物学的勾配という観点はドメインごとに扱いがかなり異なると思われます。
一方で、久米氏が書いた人文社会科学で著名な『原因を推論する』では『創造の方法学』のエッセンスを要約して因果関係の成立条件を整理しています。
因果関係が成立するための三条件
高根正昭は、今や研究方法論教科書の古典となった名著『創造の方法学』において、以上見てきた三つを、因果関係が成立するための条件としてあげている。すなわち、
① 独立変数と従属変数の間に共変関係がある
② 独立変数の変化は、従属変数の変化の前に生じている(時間的先行)
③ 他の変数を統制(コントロール)しても(他の変数の値を固定しても)共変関係が観察されるの三つである[久米 2013: 15]。
この三条件はDuckworth et al.[2010])がShadish et al.[2002]を要約して整理した三条件と符合します。
ジョン・スチュアート・ミルの古典的な定式化によれば(Shadish, Cook, & Campbell, 2002)、因果関係を確立するためには以下の三つの基準が必要である:(a) 時間的先行性(すなわち、原因が結果に先行する)、(b) 共変性(すなわち、原因と結果が関連している)、(c) 代替説明の排除(すなわち、第三の変数が観察された関係性を説明していない)。ランダム割り当て、二重盲検、プラセボ対照の実験デザインは、その仮定が満たされた場合(例えば、参加者の途中離脱や完全な服薬順守が確保されている場合)に、これら三つの基準をすべて満たす。時間的先行性は、仮説された原因を操作し、その後の結果に与える影響を測定することで確立される。仮説された原因と結果との間の共変性は、統計的検定を通じて確立される。最後に、潜在的な第三変数の交絡因子は、参加者を条件にランダムに割り当てることで制御される[Duckworth et al. 2010: 2]。
この三条件が因果関係を成立させるための必要十分条件であるかは議論の余地がありますが、実務でデータ分析をするときに因果関係を仮定する際に事前に考慮すべき重要事項ではあると思います。
まとめ
ここでは因果関係を定義付けて、因果関係が成立するかどうかを考える際に考慮すべき事項を列挙しました。
因果関係とは「変数$X$が原因となって結果$Y$を引き起こす」という関係を意味するものと考えられます。
そして、因果関係を仮定する際に考えるべきこととしてHill[1965]による9つの観点や、久米[2013]やDuckworth et al.[2010]が整理した三条件が重要になってきます。私は特に後者の三条件を重視しており、それは①共変関係、②時間的先行、③変数統制です。