Aidemy 2020/12/3
はじめに
こんにちは、んがょぺです!バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます!
今回は、レコメンデーション入門の1つ目の投稿になります。どうぞよろしくお願いします。
*本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。
今回学ぶこと
・レコメンドシステムについて
・コンテンツベースフィルタリングの実装
レコメンドシステムについて
レコメンドシステムとは
・__レコメンドシステム__とは、商品を推薦するシステム__のことである。みじかな例としては、Amazonなどのネットショッピングのレコメンドシステムがある。「あなたへのおすすめ」「この商品を買った人はこちらの商品も買っています」といったものである。
・レコメンドの種類は、大きく「アイテムベース」「ユーザーベース」__に分けられる。商品購入の例で言うと、「購入した__商品と類似した__商品を勧める」のがアイテムベース、「__購入者の履歴や同じ購入パターンの人を分析__して商品を勧める」のがユーザーベースである。この二つでは実装方法が異なる。
協調フィルタリング
・Amazonでは、__他のユーザーの購入パターン__を使って商品をオススメしている。このように、他ユーザーの行動パターンやアイテムの類似性__を対象のユーザーと比較するレコメンドシステムのことを「協調フィルタリング」と言う。
・このシステムは、「似ているユーザー」を購入履歴やレーティングから導き、「ユーザー同士」あるいは「ユーザーとアイテム」__を結びつけることで実装される。__最もよく使われているレコメンドシステム__であり、Chapter2でこの実装を行う。
コンテンツベースフィルタリング
コンテンツベースフィルタリングとは
・あるユーザーの購入履歴やプロフィールなどから、そのユーザーの個人的な嗜好を見つけて__コンテンツを進める手法を「コンテンツベースフィルタリング」と言う。こちらは協調フィルタリングと違って__他ユーザーのデータを使用しない。例としては、「筋トレが好き」とプロフィールに記載しているユーザーに筋トレ関連のグッズを勧めるといったことが挙げられる。
コンテンツベースフィルタリングの実装
・ここからはコンテンツベースフィルタリングを実装していく。流れは以下の通り。
①アイテムから__単語を抜き出し__、その単語の__重要度を求め__、特徴ベクトルを作成__する。
②作成した特徴ベクトルを他アイテムの特徴ベクトルと比較して__類似度を求める。
③類似度の高いデータを__レコメンド__する。
①アイテムから単語を抜き出し、その単語の重要度を求め、特徴ベクトルを作成する
・今回は文章(肉フェス?)を品詞分解して名詞のみをまとめたリスト__「text」が用意されているので、これを使用する。重要度については、単語の出現頻度を表す「TermFrequency(TF)」と、単語の希少性を表す「InverseDocumentFrequency(IDF)」で算出し、これらを掛け合わせた「TF-IDF」を特徴ベクトルとする。
・TFは「調べたい単語数÷全単語数」で求められる。IDFは「$log_{10}$全文書数/その単語が出現する文書数」で求められる。
・以下はTFを求める関数「tf()」とIDFを求める関数「idf()」__である。
・「tf()」について、まず「terms_unique」として、単語のリストを「set()」を使って__和集合にする__ことで__単語の重複をなくす。次に「tf_values」はこのそれぞれの単語について、「count()」で個数を数える。「tf_list」は「tf_values/sum(tf_values)」__としてTFを算出し、リスト化したものを格納する。返す値については、最後にTF×IDFを行うため、ndarray型__にして返す。
・「idf()」について、IDFの計算では「文書数」を使うので、引数では「document」が渡される。こちらもまずは「set(terms)」で単語の重複をなくす。次にIDFを計算したものを格納する「idf_list」を作成する。terms内の全ての単語(term)について、先述した式でIDFを算出する。対数の計算は「math.log10()」で行う。また、全文書数は「len(document)+1」で求められ、termを含む文書数は、渡された文書documentsのそれぞれ(document)について、「bool(term in document)」で条件を満たす文書を抽出し、その個数を「sum()」__で合計すれば良い。また、こちらも__ndarray型__で返す。
・最終的には、tf()とidf()を適用してこれらを__かける__ことで__TF-IDF__を算出すれば良い。コード上では__[word, tfidf]__となるようにリストを作成し、値が大きいものから順に並べ替えて出力している。
②類似度を求める
・今回は__「コサイン類似度」を使って類似度を判定する。コサイン類似度は文書同士を比較する際によく用いられる計算手法で、三角関数のcosと同じように、1に近ければ類似、0に近いほど似ていないと言える。
・以下は二つのベクトルのコサイン類似度を求める関数「similarity()」__を実装している。詳しくはChapter2参照。
③類似度の高いデータをレコメンドする
・①で作成したTF-IDFによる__特徴ベクトル__と、②で作成した__コサイン類似度__を使って、複数の商品から対象者に適したものをレコメンドする。
・以下では、「takeshi」さんの映画の好みデータとそれぞれの映画の(客観的な)評価のデータである。これを前項の__「similarity()」を使って類似度を算出し、類似度の高いものから順に並び替えると言うことを行なっている。
・[映画名,類似度]と格納するリスト「score」__を作成し、各映画のベクトルデータ(movie[1])とtakeshiさんのベクトルデータ(takeshi)を「similarity()」に渡し、これと映画名(movie[0])をscoreに格納する。
まとめ
・レコメンドシステムとは、__商品を推薦するシステム__のことである。
・あるユーザーの購入履歴やプロフィールなどから、そのユーザーの個人的な嗜好を見つけて__コンテンツを進める手法を「コンテンツベースフィルタリング」__と言う。これを行うには、それぞれのアイテムの__重要度__を算出して特徴ベクトルを作成し、また、類似度__も算出する必要がある。
・重要度については、単語の出現頻度を表す「TermFrequency(TF)」と、単語の希少性を表す「InverseDocumentFrequency(IDF)」で算出し、これらを掛け合わせた「TF-IDF」__を特徴ベクトルとする。
・類似度については、コサイン類似度を使う。詳しくはChapter2で扱う。
今回は以上です。最後まで読んでいただき、ありがとうございました。