概要
CounterFactual Machine Learning勉強会 #4
近年因果推論の知識を機械学習に応用したり、逆に因果推論の為に機械学習を応用するといった方法論が提案されています。 この勉強会はCounterfactual Machine Learningと呼ばれるこれらの手法に関する研究や実例の紹介を行う事を目的としたものです。
各発表とそのメモ
各発表について、気になったところのメモを掲載します。
後日資料が追加されていたら、リンクも追記します。
なお、本勉強会では、Off Policy learningの研究最前線についての発表もありましたが、事前知識がなくあまりまとまっていないので、ここで公開は控えます。
Delayed Feedback meets CFML
-
RTBと機械学習
-
アクセスが発生した瞬間に、広告枠にどの広告主の広告を出すか、効果測定して決定
-
クリックされる確率(CTR)と売り上げが発生する確率(CVR)から最適化する
-
予測モデルは、ログデータを基にモデルを学習する
-
運用上、一定期間ごと(例えば1日)にモデルを学習して差し替える
-
-
Delayed Feedback
- CTしてからCVまでは時間がかかる場合がある
- 特に高額商品の購買などは検討時間があり、時間がかかる傾向
- そのため、学習時に、ログ上にCVが発生していない可能性があり、学習データで得られるCVと真に予測したいCVに乖離がある
- CTしてからCVまでは時間がかかる場合がある
-
CFMLなアプローチの解説
- 予測モデルの真のCVに対する損失を最小化したい
- 過去のDelayed Feedbackの傾向(S)を基に、IWを算出するし、バイアスを除く
- オフライン・オンライン共に、既存手法より良い性能
Unbiased Recommender Learning from Biased Implicit Feedback
-
Implicit Feedbackを用いた推薦システムの定式化
- 推薦システム「ユーザに対して関連性がある商品を推薦したい」
- Pointwiseアプローチ:ユーザ・アイテム間の関連性(Relevance)に基づく損失から最適化
- Pairwiseアプローチ:アイテム間の関連性の順序関係を最適化
- ClickをRelevanceで代替するには
- 損失関数を計算する際、関連性(Relevance)を必要だが、コストがかかる
- Click情報のようなImplicit Feedbaskは容易に手に入るので使いたい
- しかし、必ずしもClickとRelevanceは一致しない
- Exposure Modelによって、Clickの発生プロセスをおく
- Clickの有無 = Exposure(曝露)の有無 * Relevanceの有無
- Click情報のみで、Relevanceを導く最適化問題
- Positive-Unlabeled / Missing-Not-At-Randomの問題
- 真にRelevanceだが、Click情報がないケースがある
- 推薦システム「ユーザに対して関連性がある商品を推薦したい」
-
基本的な手法の紹介と整理
- Weighted Matrix Factorization(WMF)
- Positive-Unlabeledを取り扱えない
- Bayesian Personalized Ranking(BPR)
- Positive-Unlabeledを取り扱えない
- Relevance Matrix Factorization
- Pointwise Lossに対して、Exposure確率の逆数で重み付けする
- Unbiased Bayesian Personalized Ranking
- Pairwise Lossに対して、Exposure確率の逆数で重み付けする
- 真のExposure確率の推定は、情報検索周りで手法が色々ある
- Item popularityで代用するのがナイーブ
- Weighted Matrix Factorization(WMF)