最近効果検証について勉強しています。例えば、広告を行った時に売上がどの程度上がるのかなどを検証することです。もう少し抽象化して説明すると、介入(広告を打つなど)した時の効果(売上の増加など)を検証することです。今回は効果検証がなぜ難しいのか、間違いがちな効果検証について記事です。
忙しい人向けの結論
・介入を行った世界と介入を行わなかった世界のどちらしか観測できないから、正確な効果検証が難しい(反実仮想の考え方)。
・介入を行ったグループと介入を行わなかったグループを単純に比較するだけでは、セレクションバイアスにより効果が大きく見積もられたり、小さく見積もられたりする。
・現在最優の効果検証のメゾットは、RCT(ランダムか比較実験、広告業界ではABテストなどが有名でABテストはRCTの1種)。
本当に知りたい効果量は測れない
・例えば、商品のキャンペーンメールを送信して、キャンペーンメールの効果を検証しようとします。メールを受け取った人と、メールを受け取っていない人との商品購入量を比較して、その差がメールの効果だと差だと言えるでしょうか?これは言い切れません。
・そのほかの例として、ある画期的な勉強メゾットが発明され、そのメゾットを利用した人と利用していない人とのテストの点数を比較して、メゾットの学力アップ効果を知ることはできるでしょうか?これも間違った見方になります。
上、2つの効果検証の考え方は間違っています。
本当の施作の効果を検証したい場合、上の例で言えば、あるAさんにメールを送り、商品購入量を調べた後に、タイムスリップして同じAさんにメールを送らなかったときの商品購入量を比較しなければならないです。
勉強の例で言えば、Bさんにメソッドを試し、テストを受けてもらった後、過去に戻り、Bさんにメゾットを受けてもらわずに同じテストを受けてもらい、そのテストの点数差が勉強メソッドの効果の差になります。
このように、もし仮に〜だったらという観測できない世界を想像することを反実仮想といい、本当の効果検証を行うにはこの反実仮想の世界を観測する必要があるます。しかし、現実にそんな方法は存在しません。効果検証では本来不可能なことを実験デザインと統計の力を使ってなんとか成し遂げようとするから、難しいと言われているのだろうと思います。
数式で表現すると、介入した世界を1、介入していない世界を0とし、本当の因果効果をtauと置く。
\tau = Y^{(1)} - Y^{(0)}
現行最優のメゾット:RCT
概要:ランダム化比較実験の略。効果検証をする際に、予算や実験環境などに制約がないのならば、是非行いたい手法。
方法:ランダムに介入する人としない人を選択することによって、介入したグループと介入しなかったグループをグループ単位で見た時、等質なグループとして扱える。介入したグループと介入しなかったグループとの差異は介入によるものだけなので、その差が効果であると考えることができる。
トピック1:広告業界でのABテストもRCTの一種。
トピック2:因果ダイアグラムの文脈で説明すると、説明変数に向かう矢印全てをカットすることができるので、説明変数に影響する様々な変数の影響を考慮せず、平均因果効果を求めることができる。
間違った効果検証
上述の通り、介入したグループと介入しなかったグループの平均の差を因果効果とするのは間違ってます。例えるならば、濃縮したオレンジジュースとリンゴジュースがあり、濃縮により甘さがどの程度増すかを知りたい場合、両方ともオレンジではなくリンゴを使って甘さを比較するべきです。
話を戻し、2つのグループを比較する際には本当の因果効果に加えて、セレクションバイアスというものが含まれています。セレクションバイアスとは、例えば、キャンペーンメールを送信する際には購入見込みの高い顧客にメールを送信するため、メールを受け取ったグループには元々商品買ってくれる顧客が含まれていたため、因果効果が過大に見えたりします。また、治験などでは、被験者は元々体調が悪い人たちばかりで、薬によって健康度が回復したとしても、悪かった体調が元に戻ったことかもあり、薬の効果を過小に評価してしまうということもあります。
まとめると、介入・非介入グループに元からある差異のことをセレクションバイアスと呼び、セレクションバイアスによって因果効果が過大または過小に評価されることがあるということです。
セレクションバイアスを数式で表現したのが次の章です。
数式を利用してセレクションバイアスのイメージを可視化
まず、単純に介入したグループと介入しなかったグループの差を比較する。
z=1が介入、z=0が非介入を表す。
\tau_{naive} = \mathbb{E}[Y^{1}| z = 1] - \mathbb{E}[Y^{0}| z = 0]
上の式をいじってセレクションバイアスを数式で表現する。
\tau_{naive} = \mathbb{E}[Y^{1}| z = 1] - \mathbb{E}[Y^{0}| z = 0] \\
= \mathbb{E}[Y^{1}| z = 1] - \mathbb{E}[Y^{0}| z = 1] + \mathbb{E}[Y^{0}| z = 1] - \mathbb{E}[Y^{0}| z = 0] \\
= \mathbb{E}[Y^{1} - Y^{0}| z = 1] + \mathbb{E}[Y^{0}| z = 1] - \mathbb{E}[Y^{0}| z = 0]
ここで$\mathbb{E}[Y^{0}| z = 1] - \mathbb{E}[Y^{0}| z = 0]$の部分がセレクションバイアスに該当する(図も参照)。
RCTがセクションバイアスをなくす理由はz=1とz=0のグループ間の差異をなくすからで、それを数式で表現すると$\mathbb{E}[Y^{0}| z = 1] = \mathbb{E}[Y^{0}| z = 0]$となり、セクションバイアスが0になる。
よくある勘違い
データ数を増やせば、正しく効果検証できるというのは間違い!理由は簡単で、そもそも介入グループと非介入グループに差があれば、データ数をどれだけ増やしても、セレクションバイアスが発生してしまうから。
参考文献
「効果検証入門 正しい比較のための因果推論」 安井 翔太 出版:株式会社ホクソエム