More than 5 years have passed since last update.

[論文メモ] Factorization Machines

Posted at 2018-12-25

はじめに

SVMがsparseなデータに対して上手くいかない理由を示す。
tensor factorization modelの欠点として、
- 標準的な予測問題に使えない。(予測値が実数など)
- 個々のタスクに対して学習アルゴリズム等を設計する必要がある。
この論文では新しい"Factorization Machine(FM)"という新しいモデルを提案する。
- SVMのようにジェネラルな予測モデルであるがスパースなデータにも活用できる。
- このモデルは線形の時間とパラメータで学習することができる。

defree $d=2$ のFMのモデルは下記の数式で表すことができる。
- 式(1) $\hat{y}(x) := w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n x_i x_j$
ここで学習対象となるモデルパラメータは
- $w_0 \in R$
- $w \in R^n$
- $V \in R^{n \times k}$
また$k$はハイパーパラメータ。
$d=2$のFMは変数の単体とペアを捉えている。
- $w_0$はバイアス
- $w_i$ は $i$ 番目の変数の寄与度
- $\hat{w}_{i,j}:=$ は $i$, $j$ 番目の交差項の寄与度。
  - ここで $\hat{w_{i,j}}$ を直接学習させるのではなく、$v_i$ と $v_j$ を介して計算している。次元が大きくなると組み合わせ数が膨大になり $\hat{w}_{i,j}$ を直接計算するのは難しい。特にスパースなデータでは精度が下がる。