More than 5 years have passed since last update.

相関は因果関係ではない。ではどうするか

Last updated at 2018-07-07Posted at 2018-07-07

相関は因果関係ではない。

相関を因果関係のように解釈して議論するといくらでも間違えた議論ができる。

ビッグデータや深層学習を安易に信用してシステムを組むことはとても危険です。

例題

「入社後に良好な結果を出した社員は、メガネをかけている率が△△％と高かった」しかも「メガネの有無と相関が見られた」と仮定しよう。
では、「入社後に良好な結果を出す社員を採用するには、メガネをかけた候補者を選ぶのがよい。」と考えていいだろうか。

もちろんNOである。
相関と因果関係とは無関係である。

例題

小学生４年生から小学生６年生に共通の問題を解かせて、正答率と身長との関係を分析したとしよう。
そうするとおそらく「正答率は身長と正の相関が相関係数△△でみられた。」

「身長が高いほど、学力が高い」という結論を引き出して、それを他の分野の判断に使うなどという馬鹿なことはしないだろう。
ここでは、小学生４年生から６年生になると身長も増えるし、同じ問題に対する正答率も上がるという共通の理由が自明だからだ。

多変量解析では？　深層学習では？

こんな単純な議論ではなく、多変量解析で寄与率を解析しても、相関であって因果関係ではない。
目的変数、説明変数、寄与率という表現のために、説明変数が原因であって、目的変数が結果であるかのように思い込みやすいが、
多変量解析では、相関関係を示しているに過ぎない。

次の記事の中では、目的変数と説明変数を入れ替えられるということを述べています。
多変量解析の手法

予測の手法では、変数を目的変数と説明変数に分けなくてはいけません。図9の例では、体重を目的変数として、身長と腹囲と胸囲を説明変数にすることもできますし、図10のように体重と腹囲を目的変数として、身長と食生活と運動を説明変数にすることできるわけです。つまり同じ変数でも、目的変数にも説明変数にもなり得るということです。

因果関係の場合には、原因と結果を入れ替えることはできない。

それは、解析手法をSVM（サポートベクターマシン）に変えても同じである。サポートベクター回帰であっても、線形性を仮定した多変量解析が、非線形に適応したカーネルトリックを用いた手法に置き換わっているだけで、関係性を示しているにすぎません。

深層学習に変えても基本は同じである。(因果関係を見つけようとする試みはあるらしいが、現状の大半の深層学習は、相関と因果関係とを区別することができない。)

Deep learning thus far cannot inherently distinguish causation from correlation
ディープラーニングは因果関係と相関を区別できない

医薬品の分野で用いられている手法

効果があるのかどうかを対比する必要がある医薬品の分野では、ただ単にその医薬品を用いた集団とそうでない集団に分けるのではなく、それ以外の点では両者は同一のバラつきの持つようにする実験がされている。ある集団では薬を服用するならば、もう一方の集団も偽薬を服用して、集団分けされていることが気づかないようにしている。