More than 3 years have passed since last update.

論文 Item2Vec: Neural Item Embedding for Collaborative Filtering

Posted at 2022-08-31

word2vecをレコメンドに応用した以下の論文について、少しメモ書きを残しておきます。

内容

書くの面倒なのでこれからは以下の略語を使います。

w2vの解説。w2v知っている人はスキップ可能。ここでは解説省略。
私は「言語処理100本ノック」である程度学びました。(この章に書かれている数式レベルでは理解できていなかった)。

setは論文内ではspatialおよび時間の長さを無視。basket単位にすると、１回の注文でのアイテム数が多い場合に使えるデータが少なくなりすぎるし、ユーザ単位にすると、どのくらいの期間以内であれば連続したものとして見なすかが検討点。

比較のためのベースラインにitem-item SVDを使用。

以下の2種類データを使用。

	音楽	order
dimension m	100	40
subsampling ρ	$10^{-5}$	$10^{-3}$

ベクトル化した結果をT-SNEで2D可視化。音楽はジャンル情報を付加して色付け。左(a)がi2vで右(b)がSVD。

KNNでベクトルを音楽ジャンルの分類をさせて精度比較。Top q アーティストでSVDと精度比較。qの値が大きいほどi2vの精度が相対的に良い。これはi2vでは人気のあるアイテムをサブサンプルしているため(正確にd理解できていないが、多いアイテムをDownsamplingしているっぽい)。