Posted at

【論文紹介】Robust Factorization Machines for User Response Prediction


はじめに

リコメンドのシーンでよく使われる教師あり学習のモデル Factorization Machines に対して,データのノイズや不確実性に対応できるよう工夫を加えた Robust Factorization Machines という手法について提案されている論文である,『Robust Factorization Machines for User Response Prediction1』について簡単に紹介します.

Robust Factorization Machines を利用すれば,たとえば同じユーザが複数のデバイス経由でアクセスしたり,クッキーが消去されたりといった理由で,ある 1 人のユーザに関するデータが複数のユーザに関するものであると解釈されてしまうような場面でも,上手くデータを扱って予測できるらしいです.

この論文は The Web Conference 2018(WWW2018)に採択されたものです.

また,この記事は、Wantedlyの勉強会で取り上げられた論文・技術をまとめたものです。

2018年に読んだ機械学習系論文・技術まとめ at Wantedly Advent Calendar 2018 - Qiita

(当記事に使用している画像は元の論文のものを引用したいます.)


背景

オンライン広告の世界において,ユーザの行動を予測することは大変重要な問題です.ユーザの行動を正しく予測することで,広告主は目当てのユーザにだけ広告を表示することができるため,広告費を無駄にすることがなくなりますし,ユーザにとっても外れた広告が表示されないことは良い体験になります.

ユーザの行動予測では長らく ロジスティック回帰(LR) が利用されてきました.また,最近では factorization machines(FMs) やその拡張版の field-aware

factorization machines(FFMS)
が広く使われています.これらの手法では基本的に,ユーザの行動ログを絶対に正しいものとして扱って学習,予測を行っています.

しかし,実際のユーザの行動ログは絶対的に正しいものではありません.基本的に広告主は,クッキーやデバイスに付与された ID によって,ユーザを判別します.しかし実際のユーザは,デスクトップ経由であったり,モバイルアプリ経由であったりと,様々な手段で広告主のサイトへとアクセスします.同じユーザが別々のデバイス経由でサイトにアクセスした場合,デバイスの ID のみでユーザを識別していると,これらを異なる複数のユーザとして扱うことになります.

また,クッキーを消去する頻度が高いユーザがいたり,ユーザごとにネットワークの接続スピードがばらばらであったりすることは,データにノイズを含める要因となります.

スクリーンショット 2018-12-16 1.47.44.png

この論文では,こういったデータの不確実性に対処するためにロバスト最適化の考えを利用した, Robust Factorization Machines(RFM)Robust Field Aware Factorization Machines (RFFM) を提案しています.


手法の概要

一般的な分類問題では,与えられたデータ x(i) が正しいものであるとして,以下のように損失を最小化するような重みベクトル w を学習します.

スクリーンショット 2018-12-16 2.33.50.png

一方で,RFM では,それぞれのデータに対して不確実性 U を許容します.η(i) はそれぞれのデータ x(i) に対しての不確実性の範囲を表します.

スクリーンショット 2018-12-16 1.49.41.png

この条件のもとで,以下のように,データの不確実性によって損失が最大になるときにその値を最小にするよう重みベクトルを学習します.これがロバスト最適化の考えとなります.

スクリーンショット 2018-12-16 2.33.58.png

それぞれの分類方法は以下のようなイメージになります. (a) が入力データをそのまま利用した分類. (b) がそれぞれの入力データに対して一定の"不確かさ"を許容したうえで学習を行う分類.

スクリーンショット 2018-12-16 1.48.15.png


実験・評価

以下が,実験結果.上が FM と RFM を比較したもの.下が FFM と RFFFM を比較したものである.Perturbation は,データに対して仮定する不確かさの分布を意味する.

データに不確かさがないとき(Unperturbed のとき)は,ロバスト最適化の考えを用いず,与えられたデータをそのまま学習に用いる FM と FFM の方が若干良い結果となっている.一方で,データに不確かさを与えた際(実験では,データセットにガウシアン分布やポアソン分布を仮定している)には,データに不確かさを仮定して学習する提案手法の RFM と RFFM が大きく高い性能を示している.

実際にユーザの行動を予測する場においては,ユーザの行動ログには不確かさがあることを考えると,この結果は十分に良いものであると言えるでしょう.

スクリーンショット 2018-12-16 3.08.49.png


感想

機械学習で問題解決に取り組む際,データの前処理を行ってより正しいデータセットを作成することは必須であり大変重要なことであるが,それには限界(リソース的にもデータの性質的にも)がある.この現実がある中で,データセットを完全に正しいものであると解釈せず,ある程度の不確実性を仮定して学習を行えるこのモデルは,様々な要因からデータにずれが生じ得る実サービスに導入することを考えると大変リーズナブルなものであると思いました.

また,この論文には著者による解説記事23があるので,興味を持たれた方は是非読んでみてください.