合流バイアスとは
合流バイアス(コライダーバイアス)とは、
複数の独立した原因変数A、Bが共通の結果変数C(合流点)に影響を与えるとき、
その結果Cでデータを絞り込んだり条件付けたりすると、
本来独立なはずのAとBの間に見かけ上の相関が生じる現象です。
この記事の読者
- データ分析やマーケティング施策の効果検証を行う方
- 因果推論の基礎を学びたい研究者・学生
- モデル構築時の選択バイアスに注意したいエンジニア・アナリスト
具体的な例(小売業界)
-
要因A:プロモーション実施月
- セール月(12~3月)にDMやプッシュ通知で来店を促進
-
要因B:顧客の自発的購買意欲
- 本当に商品を必要として自ら来店する層
-
合流点C:購入した顧客
- プロモーションで来店 or 自発来店、いずれかで購入が成立
-
分析結果(フィルタ後)
- 「セール月に購入した顧客は離脱率が高い」と見えるが、
- 実際はセール月は“意欲の低い層”を無理に取り込んでいるため
- 自発層が多い非セール月と比べて離脱率が高くなるだけ
DAGとは
因果関係を整理するための有向非巡回グラフ(Directed Acyclic Graph)。
- ノード:変数(原因・結果)
- 矢印:因果の流れ
- コライダー(合流点):矢印がぶつかる結果変数
今回の例で書いてみる
プロモーション実施月 ──▶
\
購入した顧客(C)
/
自発的購買意欲 ──▶
- 矢印が交わる「購入した顧客」がコライダー
- ここで「購入顧客だけ」を分析対象にすると、
プロモ月と購買意欲の間に偽の相関(負の相関)が生じる
まとめ
- 合流点バイアスは「結果変数でデータを切る」ことで生じる偽の相関
- 分析モデルにコライダーを入れたり、そこによりデータを絞ったりしない
- 真の原因変数(A, B)を観測・モデル化し、因果構造(DAG)を意識することで回避
- あらゆる業界・領域で注意が必要な落とし穴です。