シンプソンのパラドックスってご存知ですか?
同じデータなのに「全体で見るか」「分割して見るか」で見え方が変わるという面白い事象です。
また、面白いだけでなくデータを扱う上での大事な考え方を教えてくれます。
今日は受験生の悩みという、比較的身近な話題を例にシンプソンのパラドックスについて述べてみたいと思います。
受験生の悩み
一年後に受験を控えた受験生の太郎さんは、これから本格的に受験勉強しようと思っています。
勉強にあたり「A塾に通うか?」「自力で勉強するか?」悩んでいて、情報を収集しています。
最初に入手した情報
過去の情報から合格率を比べてみると、A塾生の方が高い
太郎さんは
「気持ち程度だが、塾生の方が合格率上なんだったら通ってみるか」
と思いました。
次に入手した情報
そこに新たな情報、さっきと同じデータを2つのグループに分割して比べると一般受験生の方が合格率が高い!
太郎さんは
「確かに全体で見るとA塾生の方が合格率が高いが、それを分けたグループA,Bは両方とも一般受験生の方が合格率が高い、どちらを信じればいいのか?」
と悩んでしまいました。
これがシンプソンのパラドックスと呼ばれる状態です。
同じ数字から異なる判断が生まれる
実は、ここまでの情報だけでは「どちらを信じればいいのか?」の判断はつきません。
「何を基準にグループ分けされているか?」を知って初めて判断が出来ます。
以下、2つの異なるシナリオで太郎さんの判断をみてみましょう。
シナリオ1 事前の学力テストでグループ分け
この分類が「入塾前に事前に実施された学力テストの結果」に基づく分類だとわかったとします。
これをみた太郎さんは
「もともと学力の高かった受験生がA塾に入ってるようだ、A塾の合格率が高いのはもともと学力の高い受験生がたくさんいるからで、塾の効果とは言えなそうだ」
と結論づけ、自力で勉強する道を選びました。
シナリオ2 勉強時間でグループ分け
この分類が「夏休み終了時(時期的には入塾の5ヶ月後)に調査された1日の勉強時間」に基づく分類だとわかったとします。
これをみた太郎さんは
「A塾に入ると勉強する習慣が身について、それで合格率が上がっているのか、塾の効果ありそうだ」
と結論づけ、入塾を決めました。
データの因果関係を把握しよう
同じ数字で太郎さんの選択結果が違ったのは、太郎さんが想定したデータ間の因果関係が違うからです。
事前の学力テストのケース
太郎さんは頭の中で
「事前の学力が、入塾と合格率の両方に影響を与える」
という因果関係を想定し、事前学力で分類された合格率を元に判断しています。
勉強時間のケース
太郎さんは頭の中で
「入塾が、勉強時間に影響を与え、勉強時間が合格率に影響を与える」
という因果関係を想定し、全体の合格率を元に判断しています。
因果関係
このように、データ間の因果関係をどのように想定するかで、データを見る適切な切り口は変わってきます。因果関係の理解は適切なデータ分析のために重要です。
以上、シンプソンのパラドックスについて超概要を述べてみました。
因果関係について、もっと詳しく知りたい方は下記の書籍をおすすめします。
参考書籍
[asin:B071CD9CMP:detail]
[asin:4254122411:detail]
[fkenshi18:20191019080944g:plain][fkenshi18:20191019081023g:plain][fkenshi18:20191019081026g:plain][fkenshi18:20191019081029g:plain][fkenshi18:20191019081031g:plain][fkenshi18:20191019081034g:plain]