前回は客数について考える比較的わかりやすい内容を書きました。
今回は少し思考を変えて因果について考えてみましょう
ちょっとわかりにくいかもだけど頑張ります
そもそも因果とは何でしょうか
例えば、クーポンの配信でレジ通過客数が先週より500人多かったとしましょう。
この客数の変化からクーポン配信以外の要素をすべて引き算します
気温、日付、広告、物価…とすべての客数の要素を引き算し
残った客数、つまり真のクーポン配信による客数増加効果だけを知りたいのです。
しかし、これは非常に難しいです。
前回は未来を予測したかったですよね
用はタスクは回帰ってことです。
回帰はそんなに難しくないのは直感的にわかる人も多いいのではないでしょうか
回帰分析等中学生でも回帰についての推察方法は知っています。
じゃあ因果推論はどうなのか
なにか思いつく人はいますか?
恐らく、思いついた多くの人が相関関係を想像したのではないでしょうか
xとyの標準偏差の積をxとyの共分散で割れば相関係数が出せますからね
相関係数から
「xが大きい時、yが大きい」
みたいな関係性がわかるわけです。
しかしこんなことわかったことで因果は何もわかりません。
なぜなら
「yが大きい時、xが大きい」
という事も言えてしますからです。
相関関係には方向性がありません。
わかりやすいようにたとえを出すと気温が上がると電力消費量は上がりますよね、エアコンとか使うし
つまり気温と電気消費量には正の相関があります。
しかし、電力消費量が上がると気温があがるという事も言えてしまします。
統計的因果推論ではxだけに介入した結果を知りたいのです。
つまり気温が1℃上がったとき、電力消費量が上がった気温のせいだけでどのくらい上がるかを調べます。
方向性がx→yにする必要があります。
もう少し踏み込んでみましょう
高校数学の確率を思い出してください
クーポンを配信すると客数が増加する
この時、この事実だけを「観測」したときの条件付き確率と
クーポン配信を「介入により行った」時の条件付き確率は異なります
原因としてはクーポン配信と客数のデータは独立していないからです。
要因Tと介入C₁…Cjが独立の時のみ因果効果がわかります。
じゃあどうやって独立の状態を作るのか
それを次回
バックドア基準
重回帰分析と大きな罠(内生性選択バイアスについて)
で解説します。
それでは、おやすみなさい