概要
Machine Learning Recommender Pitch
Machine Learning Pitchは、機械学習について業務で培った知見や経験や苦労話を共有できる場を提供することを目的としたMeetupグループです。機械学習に取り組み、実社会への適用に日々もがき苦しみ楽しんでいる方々を対象としております。
機械学習を実際の製品やサービスに提供するためには、企画(プランナー)、設計(機械学習エンジニア、データサイエンティスト)、基盤(サーバーサイドエンジニア、インフラエンジニア)、品質保証(QAエンジニア、セキュリティエンジニア)、分析(データアナリスト)など様々な職種の協力が必要です。Machine Learning Pitchでは、定期的に毎回テーマを決めて実務者の方々に発表して頂きます。
発表内容
パーソナライゼーションのためのマルチリービング
-
マルチリービング
-
ABテストと比べ、複数アルゴリズムの検証期間が少なくて済む
-
群のバイアスに左右されない
-
一方、ランキングの間接的な影響を評価しにくい
-
検索で適応されたもので、パーソナライゼーション上での適用事例がない
-
-
課題
- パーソナライゼーションにおいて、マルチリービングの負荷が高い
- 定式化の修正により、高速化
- フィードバック関数の設計
-
オフライン評価
- 安定性を検証
- ランキング長とランキングの種類を変化させる
- 提案手法の方が安定している
-
オンライン評価
- ABテストとマルチリービングでサンプルサイズとp値をを比較
- 効率的に性能評価できる
Graph Convolutional Networkを使った推薦システム
-
問題設定
- 記事をユーザごとに出し分け
- 記事へのアクセス数は少ない
- inactiveユーザにもうまくだしたい
- 日本の医師は30万と限られているため、inactiveユーザへのアプローチが重要
- 興味に合わせたものを出したい
- 若手にはキャリア関連
- 医師の専門分野(内科、外科など)
- 記事をユーザごとに出し分け
-
GCNモデル
-
ユーザとアイテムの二部グラフ
-
属性データはLatent crossに統合する
-
ユーザは、クリックしたアイテムのembeddingの平均で表現する
-
アイテムは、クリックしたユーザのembeddingの平均で表現する
-
ユーザがアイテムをクリックする確率をembeddingのコサイン類似度で計算する
-
新しいアイテムもクリックがあれば計算できる
-
-
評価
- 直近のデータを分割して、テストデータをする
- データがたまっていない直近のデータからレコメンドされるかを確認する
- オフライン検証で、Rankingモデルよりも高いスコア
- ユーザに対して、様々な記事を満遍なく推薦できている
-
モデルの挙動
- 似ているユーザの埋め込みは近くなる
- ユーザのクリックからアイテムの埋め込みが計算される
- みんなに見られる人気のアイテムは、平均をとるとみんなから遠くなる
-
その他
- 毎日クリックしているようなユーザは推薦するメリットがないので除いている
クックパッドにおける推薦(と検索)の取り組み
-
検索と推薦
- 検索 クックパッド内で回遊させたい
- 推薦 気に入ったレシピをいち早く見つけたい
-
KPIが立てづらい
- ビジネスモデルとしてはプレミアム会員数、施策のゴールとしては遠い
- CGMとしては、人気のレシピだけを推薦すると、多くのユーザの満足度に繋がらない
- ユーザが目当てのレシピに行き着いたかどうかわからない
-
負の影響
- 検索による回遊率の低下への影響
- 推薦結果が悪い場合のプレミアム会員数低下