はじめに
こんにちは、データ分析に興味があるみなさん!
今回は、分析に潜む意外な落とし穴「シンプソンのパラドックス」について紹介します。
シンプルに見えるデータでも、実は危険な罠が潜んでいるかも…?
この記事の対象者
- 因果推論やデータ分析に興味がある方
- データ分析初心者で注意点を知りたい方
- 数字を見て意思決定をする機会が多いビジネスパーソン
シンプソンのパラドックスとは
シンプソンのパラドックス(Simpson’s Paradox)とは、
個々のグループでは明確な傾向があるのに、それらをひとまとめにすると逆の結果が出てしまう統計的現象です。
例えば、「Aのほうが良い!」と各店舗では言えるのに、
全体を集計すると「Bのほうが良い!」と逆転することが起きるのです。
一体どういうこと?実際の例で見ていきましょう。
小売業界での具体例
架空の小売店『スーパーABC』の広告戦略を例にします。
スーパーABCは2つの店舗を持ち、それぞれ違う広告戦略を試しました。
店舗 | 広告戦略 | 売上前年比 |
---|---|---|
店舗A | オンライン広告 | +20% |
店舗B | チラシ広告 | +10% |
これを見ると、店舗ごとでは明らかにオンライン広告の方が効果的ですよね。
でも、これを会社全体としてまとめてみると、なぜか違う結果に…。
広告戦略 | 全体の売上前年比 |
---|---|
オンライン広告 | +5% |
チラシ広告 | +8% |
なんと、全体ではチラシ広告の方が良い結果になってしまいました。
なぜでしょう?
これは、店舗の規模が大きく違っていたからです。
- 店舗A(オンライン広告)はもともと規模が小さく、前年比+20%でも全体への貢献は小さい。
- 店舗B(チラシ広告)は規模が大きいため、前年比+10%でも全体の売上に与える影響が大きかった。
つまり、「店舗の規模」という隠れた要素を無視して単純にまとめてしまうと、
誤った結論を出してしまうことがあるのです。
これがシンプソンのパラドックスです。
この事例から学ぶ分析するときの注意点
① 単純な「平均」や「合計」だけで判断しない!
データの集計方法を変えるだけで結果が逆転することがあります。
背景まで含めて分析することが大切です。
② 「隠れた要因」(交絡要因)に気をつける!
今回では「店舗規模」が隠れた要因でした。
データに隠れた別の影響要因を常に意識しましょう。
③ 全体だけでなく個別グループでも検証する!
データを異なる切り口で見ることで、パラドックスを回避できます。
分析では複数の視点が重要です。
まとめ
シンプソンのパラドックスはデータ分析に潜む意外な罠ですが、
これを知ることでデータを見る目が鍛えられます。
ぜひ、日常のデータ分析や意思決定で意識してみてくださいね!