最初の投稿です。
統計や機械学習関連の記事を書いていく予定です。図を使い、初心者にもわかりやすい表現を心がけています。
今回は「効果検証入門 安井翔太 著 + 株式会社ホクソエム 監修」という本の3~19ページまでの内容のダイジェストで、セレクションバイアスの理解を目的としています。
セレクションバイアスとは
ビジネスでメール配信しようとすると、効率良く儲けることが頭にあるので、効果がありそうな人が選ばれてしまいます。このような偏った選択によって発生するバイアスがセレクションバイアスです。メールの本当の効果は、最初から実験と割り切りランダムに配信しないとわかりません。
下の例は、メール配信された人とメール配信されなかった人の購入額です。
白いセルの金額は実際のメール配信の有無と逆の場合の金額なので観測できません。水色のセルの金額しか観測されないので、メールの効果は300円⇒600円と過大評価されてしまうかもしれません。ビジネス上の理由で「売上倍増!」と報告されてしまうかもしれません。
本当の効果は400円⇒500円です。これに気付かなければ(ランダムにメール配信をしなければ)サンプルを増やしてもメールの効果検証の精度は出ないのです。