More than 3 years have passed since last update.

レコメンデーション入門2　協調フィルタリング

Last updated at 2020-12-07Posted at 2020-12-07

Aidemy　2020/12/3

はじめに

　こんにちは、んがょぺです！バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます！
　今回は、レコメンデーション入門の2つ目の投稿になります。どうぞよろしくお願いします。

＊本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。

今回学ぶこと
・協調フィルタリングについて
・類似度の計算方法

協調フィルタリングの分類

メリット・デメリット

・Chapter1で学んだコンテンツベースフィルタリングと協調フィルタリングのメリットとデメリットについて考える。
・コンテンツベースフィルタリングについて、これは「個人の嗜好などの情報から類似した商品をレコメンドする」ものであるので、メリットとして「他ユーザーの情報が必要ない」他、利用者のデータがない場合でも「商品のデータさえあればレコメンドできる」と言うメリットがある。デメリットとしては、「大量の正しい商品データ」が必要であり、商品に精通している必要があることが挙げられる。
・協調フィルタリングについて、これは「似ているユーザーの購入履歴等を参考にして商品をレコメンドする」ものであるので、メリットとして、「商品の属性データや知識が必要ない」と言うものが挙げられる。デメリットとしては、「多くの利用者がいないとデータを集められず、正しくレコメンドできない」と言うものがある。
・総括すると、コンテンツベースフィルタリングは個人ユーザー/商品依存であり、協調フィルタリングは多くのユーザーのデータ依存ということになる。

データの扱い方

・協調フィルタリングには「メモリベース」と「モデルベース」がある。
・メモリベースとは、利用者の購入履歴をそのまま利用するものである。利用者の購入履歴から類似度を算出しレコメンドを行うもので、一般的にはこちらが使われる。以降の項でも、こちらを重点的に扱う。
・モデルベースとは、利用者の購入履歴をデータとするモデルを作成し、より高度なレコメンドを行う方法のことである。例としては「ベイジアンネットワーク協調フィルタリング」と言うものがある。これはベイズの定理を利用してベイジアンネットワークを構築することで、「今まで選ばれてきたデータをもとにどれが選ばれる傾向にあるか」と言う観点からレコメンドを行うものである。
・ベイズの定理について、商品1〜10まであるとして、あるユーザーAがまだ商品1を選んでいない時に商品1がレコメンドされる確率を考える。他ユーザーの結果から「最初に商品「i」が選ばれる確率」を「P(i)」とし、「商品1が選ばれていてかつ商品iが選ばれる確率」を「P(i|1)」とする。この時、Aが商品1を選ぶ確率は以下のように表される。

$$\frac{1}{u}\sum_{i \in u} \frac {P(i|1) P(1)}{P(i)}$$

$\sum_{i \in u}$ の「i」には対象のユーザの聞いたことのある商品を代入する。

・ベイジアンネットワークでは、似ているユーザーを探す必要がなく、データ量が少なくても機能するので、協調フィルタリングのデメリットである「システムの使い始めはデータがなく十分なレコメンドができない」というコールドスタート問題を解消できる。
・その他、モデルベースの例として、クラスタリングを使う手法や、次元削減を使う手法がある。

フィルタリングの分類

・Chapter1でも取り上げたが、協調フィルタリングにおけるフィルタリングの分類として改めて見ていく。フィルタリングには「アイテムベース」と「ユーザーベース」がある。
・アイテムベースは、他の利用者の購入履歴から類似したアイテムのデータを探し、「よくセットで買われているもの」をレコメンドする方法である。アイテム間の類似度を計算する。
・ユーザーベースは、他のユーザーの中で購入履歴が似ているユーザーを参考にして、「それらの人が買うことの多いもの」をレコメンドする方法である。こちらはユーザー間の類似度を計算する。
・その他のフィルタリングの手法としては、商品のランキングもその一つである。価格の低い順や高い順に並び替えるものを「スペックランキング型」といい、人気順に並べ替えるものを「人気ランキング型」という。これらは対象者ごとにレコメンドは変化しないので、新規利用者にも有効なレコメンドを行える。
・他にも、第三者の目線から関連づけを行ったりレコメンドすることを「ナレッジベース」という。会社がある商品を売り出したい時は、このナレッジベースを利用者の行動や履歴に適応させてレコメンドする。

ユーザーベース協調フィルタリングの実装

流れ

・今回はユーザーベース協調フィルタリングを実装していく。流れは以下の通り。
　①ユーザーの情報を取得する
　②評価値などからユーザー間の類似度を測定する
　③類似度と__評価値_を使って計算する
　④計算結果を予想した評価値として出力する

②評価値などからユーザー間の類似度を測定する

コサイン類似度

・Chapter1でも学んだ「コサイン類似度」について、ここでは実際に自分で実装する。
・ベクトル$\vec{a},\vec{b}$に対するcosは
$$ \cos\,\theta = \frac{\vec{a}・\vec{b}}{|\vec{a}||\vec{b}|}$$
で表される。これがそのままコサイン類似度となる。この値が1に近いほど類似していると言える。
・コードは以下の通り。

・コードについて、まずは渡されたデータをそれぞれ{key:value}のベクトルに変換する。また、keyが同じものは「same_key」として（set()で和集合にして）ひとまとめにする。ここまで行ったら、same_keyのそれぞれのkeyについて、2つのベクトルの内積(ab)を求める。これが上記式の分子となる。
・分母については「それぞれのベクトルの大きさ」を求めれば良いので、それぞれのベクトルの各要素（key）を2乗し、全て足し合わせたものの平方根をとることで求められる。最終的に、「ab/(a*b)」を返す。

ピアソン相関

・ピアソン関数とは、2つのデータの直線的な強さを-1~1で表したものである。2つのデータが同じように増加減少するとき相関は1に近づき、逆向きに増加減少する時-1に近づく。また、片方のデータの増加減少が他方に影響しないとき、0に近づく。
・$S_x$と$S_y$を標準偏差、すなわち（データ-平均）^2の平方根をとることで算出できるものと、$S_{xy}$を共分散、すなわちそれぞれの（データ-平均）を掛け合わせることで算出できるものとすると、ピアソン相関は$\frac{S_{xy}}{S_x S_y}$で表される。
・ピアソン相関が活きる場面として、例えば普段から商品に高評価をつける人が星5をつけるのと、辛口の人が星5をつけるのでは重みが異なる。これをピアソン相関では考慮に入れることができる。
・以下はピアソン相関を算出する関数「sim_pearson()」である。

・上記コードについて、まずは前項と同様に渡されたデータを{key:value}のベクトルに変換し、同じkeyを持つものは「same_key」に格納する。same_keyがない場合はその時点でピアソン相関がないということになるので、0を返す。
・次に、それぞれの平均(mean)と、それを使って標準偏差(variance)を求める。平均については、same_keyのそれぞれのkeyについて、「sum(data_dict[key])」でdataの合計を求められるので、これを「len(same_key)」で割れば良い。標準偏差については「data_dict[key]-mean」を2乗したものを合計して、「math.sqrt()」で平方根を取れば良い。
・また、共分散(covariance)も求める。それぞれの「data_dict[key]-mean」をかけるだけで良い。
・ここまで行ったら、実際に先述した式に当てはめる。ゼロ除算として、分母（標準偏差の積）が0になるときは0を返す。

スピアマン順位相関係数

・順位データから求める直線的な強さについて考える指標を「スピアマン順位相関係数」という。$\rho$（rho）で表す。ピアソン相関の評価値の部分を順位データとしたものであり、これを行うと式がピアソン相関よりも簡単になる。Nをデータの個数とすると、以下のように表される。
$$1 - \frac{6 \sum_i (x_i - y_i)^2}{N(N^2 -1)}$$

・以下はスピアマン順位相関係数を計算する関数「spearman()」である。

・上記関数について、渡されたデータの順位（変数で言うとvalue）を取り出し、XとYに格納する。また、直後の計算で使用するので、ndarrayに変換する。データの個数Nは「len(X)」で良い。
・返り値は上記式をそのまま記述すれば良い。

ジャッカード係数

・ジャッカード係数は単純に、全要素(keys)のうちの2つのデータの両方に含まれる要素（same_key）の割合である。すなわち、両方に含まれる要素数が多いほど1に近づき、類似度が高いと言える。要素の評価値（value）は一切考慮されない。
・ジャッカード係数を算出する関数「jaccard()」は以下のようになる。

・コードではsame_keyを「common_word」としているが、抽出の仕方は今までと同じで良い。今回は個数だけ分かれば良いので、抽出した個数分をcommon_wordに格納している。それぞれの要素数は「len(data)」のようにして求める。

実践

・ここでは7人のユーザーが6種類の映画の中から見たことのある映画とその評価が格納されたデータセットを使って、ユーザーベース協調フィルタリングでTobyさんに最もおすすめな映画を選ぶ。
・レコメンドの基準は「(類似度×評価)の合計/類似度の合計」で算出する。これが最も大きい映画をレコメンドする。
・コードについて、「similarity()」には2つの特徴ベクトルを渡し、それらついて$\frac{\vec{a}・\vec{b}}{|\vec{a}||\vec{b}|}$を算出する。これが類似度となる。
・「get_recommend()」では「(類似度×評価)の合計/類似度の合計」を算出し、ランキングの一番目をレコメンドとして出力する。「(類似度×評価)の合計」は「total」に格納し、「類似度の合計」は「sim_sums」に格納する。
・今回レコメンドするのは「targetがまだ見ていない映画」である必要があるので、これをリストで作成する。target以外の人が見た映画のリスト（set_person）からtargetが見た映画のリスト（set_target）を引けば良い。
・次にsimilarity()でpersonとtargetの類似度を算出し、「sim」に格納する。そして、先程のtarget見ていない映画のそれぞれ（movie）について、「dataset[person][movie]」でその人のその映画に対する評価を取りだし、これと類似度「sim」をかけたものを「total」に格納する。同様に、「sim_sums」にはpersonごとのtargetとの類似度を加算する。
・これらについて「(類似度×評価)の合計/類似度の合計」を算出し、ランキングを作成し、値が大きいものから降順に並び替え、どの一番目のものをオススメとして出力する。

・dataset

・関数

まとめ

・協調フィルタリングは、商品データは必要ないが、多くのユーザーの情報は必要になる。また、この時のフィルタリングとして、アイテム間の類似度を算出する「アイテムベース」と、ユーザー間の類似度を算出する「ユーザーベース」がある。
・ユーザー間の類似度についても、cos類似度で算出する。$\frac{\vec{a}・\vec{b}}{|\vec{a}||\vec{b}|}$で求められる。
・他の類似度の算出方法について、二つのデータの直線的な強さを示す相関係数「ピアソン相関」を求める方法がある。二つのデータについて、「共分散/標準偏差の積」で求められる。また、これを順位データから考える「スピアマン順位相関係数」というものもある。こちらの方がピアソン相関より計算量は少なくて済む。
・また、評価値を考慮しないで類似度を算出する手法として、「ジャッカード係数」がある。これは、両方に含まれる要素数の割合である。

今回は以上です。最後まで読んでいただき、ありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

レコメンデーション入門2 協調フィルタリング