相関は因果関係ではない。
相関を因果関係のように解釈して議論するといくらでも間違えた議論ができる。
ビッグデータや深層学習を安易に信用してシステムを組むことはとても危険です。
例題
「入社後に良好な結果を出した社員は、メガネをかけている率が△△%と高かった」しかも「メガネの有無と相関が見られた」と仮定しよう。
では、「入社後に良好な結果を出す社員を採用するには、メガネをかけた候補者を選ぶのがよい。」と考えていいだろうか。
もちろんNOである。
相関と因果関係とは無関係である。
例題
小学生4年生から小学生6年生に共通の問題を解かせて、正答率と身長との関係を分析したとしよう。
そうするとおそらく「正答率は身長と正の相関が相関係数△△でみられた。」
「身長が高いほど、学力が高い」という結論を引き出して、それを他の分野の判断に使うなどという馬鹿なことはしないだろう。
ここでは、小学生4年生から6年生になると身長も増えるし、同じ問題に対する正答率も上がるという共通の理由が自明だからだ。
多変量解析では? 深層学習では?
こんな単純な議論ではなく、多変量解析で寄与率を解析しても、相関であって因果関係ではない。
目的変数、説明変数、寄与率という表現のために、説明変数が原因であって、目的変数が結果であるかのように思い込みやすいが、
多変量解析では、相関関係を示しているに過ぎない。
次の記事の中では、目的変数と説明変数を入れ替えられるということを述べています。
多変量解析の手法
予測の手法では、変数を目的変数と説明変数に分けなくてはいけません。図9の例では、体重を目的変数として、身長と腹囲と胸囲を説明変数にすることもできますし、図10のように体重と腹囲を目的変数として、身長と食生活と運動を説明変数にすることできるわけです。つまり同じ変数でも、目的変数にも説明変数にもなり得るということです。
因果関係の場合には、原因と結果を入れ替えることはできない。
それは、解析手法をSVM(サポートベクターマシン)に変えても同じである。サポートベクター回帰であっても、線形性を仮定した多変量解析が、非線形に適応したカーネルトリックを用いた手法に置き換わっているだけで、関係性を示しているにすぎません。
深層学習に変えても基本は同じである。(因果関係を見つけようとする試みはあるらしいが、現状の大半の深層学習は、相関と因果関係とを区別することができない。)
医薬品の分野で用いられている手法
効果があるのかどうかを対比する必要がある医薬品の分野では、ただ単にその医薬品を用いた集団とそうでない集団に分けるのではなく、それ以外の点では両者は同一のバラつきの持つようにする実験がされている。ある集団では薬を服用するならば、もう一方の集団も偽薬を服用して、集団分けされていることが気づかないようにしている。
ランダム化比較試験
ランダム化比較試験というのが、今の時点で知られている最善の手法のようだ。
ウィキペディア ランダム化比較試験
リンク先の記事は、主に医薬品が効果があるのかないのかを、因果関係としてとらえるのには、どういうやり方では不十分であるのか、どうすると良いのかを述べています。
「無作為化比較試験―デザインと統計解析 (医学統計学シリーズ)」
「ランダム化比較試験(RCT)の設計 ヒューマンサービス、社会科学領域における活用のために」
ランダム化比較試験の歴史(1)
ランダム化比較試験の歴史(2)
ランダム化比較試験の歴史(3)
人を対象にした研究のデザイン Ⅱ - 近畿大学医学部附属病院
[AIは医療の未来をどのように変えるのか?](https://healthpolicyhealthecon.com/2017/10/19/how-ai-transforms-healthcare
/)
貧困対策の分野では、どのような対応をとったら貧困をなくせるのかについて、因果関係を明らかにして効果的な施策をとったら良いのかについて、ランダム化比較試験が使われているようです。
採用現場でAI採用をしようとする動きがあります。
・気をつけてほしいこと
- 採用活動をしている会社では、どんな能力・資質のある人を採用したいのか自覚していますか
- 会社の成長に寄与した人を適切に見分けられていますか
- もし、そうでないのであれば、AI採用は何を基準として何をもたらすのかがはっきりしない活動になります。
以下はデータの解析手法の紹介です。
以下のサポートベクター回帰は、ノイズを含むデータに対して使用するカーネルによる違いを示したものです。
scikit-learn Support Vector Regression (SVR) using linear and non-linear kernels