🎄 本記事は ZOZO Advent Calendar 2025 シリーズ 8 の 9 日目です。
ぜひ他の記事もご覧ください。
はじめに
推薦システムの最適化において、クリック率や視聴時間といった短期的エンゲージメント指標を追い求めると、クリックベイトやフィルターバブルを招きやすいと言われています。かといって「5ヶ月後の再訪頻度」のような長期的指標は観測が疎で直接の最適化が難しく現実的ではないですよね。
この課題に対し、Google Researchの論文では、中期的な行動パターン(サロゲート指標) を介して長期的ユーザー体験を効率的に最適化するアプローチを提案していました。本記事ではその論文をご紹介します。
ZOZOTOWN HOME 面も例外ではなく、レコメンドシステムの高度化が進む中で、推薦基盤チームとして「短期指標だけではユーザー体験を十分に捉えられていないのではないか」という課題感が徐々に強まり、今回ご紹介する論文などを参考にして KPI の再設計を行いました。
ZOZOTOWN HOME 面の KPI 再設計に関する詳細はこちらのテックブログをご参照ください。
今回ご紹介する論文
研究の概要
数十億ユーザーを持つ大規模推薦プラットフォームで20週間(約5ヶ月)のログデータを分析し、以下のプロセスで研究を進めている
- 初期状態で低頻度だったユーザーを、5ヶ月後に「高頻度に変化(L→H群)」と「低頻度のまま(L→L群)」に分類
- 両群の中期的行動パターンの差異を分析
- ランダムフォレストで長期的再訪増加を予測する特徴量を特定
- 特定した指標を強化学習の報酬関数に組み込み検証
主要なサロゲート指標
特徴量重要度の分析から、以下の2指標が全ユーザーセグメントで一貫して高い予測力を示した。
1. 消費多様性(エントロピー)
ユーザーが消費するコンテンツの多様性を $D_{\text{entropy}}(S)$ で定量化。トピック、カテゴリ、クリエイターなどの分散度が高いほど、長期的な再訪増加と相関する。
2. ホームページ再訪間隔
ユーザーがホームページに戻ってくる時間間隔 $T_{\text{revisit}}(S, \text{Home})$。短すぎず長すぎない最適な再訪パターンが、長期的満足度と相関している。
強化学習への組み込み
REINFORCEアルゴリズムの報酬関数を以下のように修正することで、サロゲート指標を組み込む。
消費多様性の報酬修正:
$$
R_t(s_t, a_t) = R^o_t(s_t, a_t) \cdot \exp\left[m \cdot (D_{\text{entropy}}(S_t) - D_{\text{entropy}}(S_{t-1}))\right]
$$
- $R^o_t$: 元の報酬値(短期的エンゲージメント)
- $m$: 調整パラメータ
- 多様性を高めるアイテム推薦に高い報酬を与える
ホームページ再訪の報酬修正:
$$
R_t(s_t, a_t) = R^o_t(s_t, a_t) \cdot \left[1 + c_1 \cdot \mathbb{1}(T_{\text{revisit}}(S, \text{Home}) < T_0)\right]
$$
- $c_1$: 報酬ボーナス係数
- $T_0$: 最適な再訪間隔の閾値
- 適切な時間内での再訪を促す推薦にボーナスを付与
ポイントは、既存の報酬関数を「置き換える」のではなく「修正する」形で組み込むこと。これにより短期的エンゲージメントを犠牲にせず、段階的に長期的最適化へシフトできる。
実験結果
| 実験 | 指標 | 改善率 |
|---|---|---|
| 消費多様性サロゲート | トップライン指標 | +5.2% |
| 消費多様性サロゲート | 再訪頻度 | +7.8% |
| ホームページ再訪サロゲート | ユーザー訪問頻度 | +4.6% |
| ホームページ再訪サロゲート | ホームページ訪問回数 | +9.3% |
特に低頻度ユーザーで効果が顕著(+6.2%)で、時間経過とともに学習効果が増大する傾向も観察された。
応用例:ファッションECへの展開
論文の知見をファッションECに応用するとどうなるか考えてみました。ZOZOTOWNのようなプラットフォームでは、特定カテゴリーへの偏りや季節商戦後の再訪率低下が課題として挙がってきます。サロゲート指標の導入は、これらの課題に対する一つのアプローチになりうると思っています。
消費多様性の適用
- カテゴリー間バランス(トップス、ボトムス、アウター等)
- ブランド多様性スコア
再訪間隔の短縮化
- 商品パーソナライズ機能の強化・展開
- ユーザーが興味を持ちそうな新着商品の推薦
- 新着・更新情報の強調(リアルタイムパーソナライズ等)
この考えのもとにZOZOTOWN HOME 面の KPI 再設計を行い、短・中・長期的な指標を設計しています。
まとめ
本論文の貢献は、長期的ユーザー体験という直接最適化が困難な目標に対し、「消費多様性」と「ホームページ再訪間隔」という測定・最適化しやすいサロゲート指標を特定し、強化学習への組み込み方法と効果を実証した点にあると思います。
短期的エンゲージメントと長期的満足度のトレードオフを解消するアプローチとして、実務への適用可能性が高い研究だと感じました。