はじめに
「あなたにはこちらの動画もおすすめです」、「こちらの商品をご購入の方はこのような商品にも興味を持っています」といったおすすめを受けたことはありませんか?
これらにはレコメンド機能というものが使われております。
私はアニメが好きで毎クール10本以上は見ています。その中でクール中に見ているアニメの類似作品は無いかと検索することが度々あります。プログラミングにて検索エンジンを自作できないかと思い、今回機械学習の部類の中のK近傍法(K-nearest neighbor)というアルゴリズムを用いてアニメのレコメンド機能をPythonで実装・構築していきたいと思います。
目次
1.実行環境
2.データセットについて(アニメレコメンドデータベース)
3.Pythonにて実際にレコメンド機能を実装
4.結果の考察
5.今後の展望
6.終わりに
7.参考文献
1.実行環境
Python3
ノートPC
Chrome
Google Colaboratory
2.データセット(アニメレコメンドデータベース)
まずは、本チュートリアルで利用するデータセットについて説明します。今回ですが、「Anime Recommendations Database vol2(アニメお勧めデータベースvol2)」という、108,000ユーザーのアニメのレビューデータを利用します。
このデータセットですが「anime.csv」と「ratings.csv」の2つのCSVファイルにより構成されています。2つのCSVファイルの概要は下記の通りです。
anime.csv 概要
- anime_id 各アニメのユニークID
- title アニメタイトル
- genres アニメの属するカテゴリ
- media メディアタイプ(例:映画、テレビetc)
- episodes アニメのエピソード数
- rating 最大10の平均レーティング
- members 当該アニメのグループに参加するユーザー数
- start_date 放送開始日
- season 放送時期
- source 原作
ratings.csv 概要
- user_id ユニークユーザーID
- anime_id 当該ユーザーがレートしたアニメID
- rating 当該ユーザーのレーティング
この2つのCSVファイルを利用してレコメンド機能を構築しましょう。
データの入手方法ですが、下記のKaggleページより会員登録後にダウロードが可能です。下記のリンクから、「rating.csv」と「anime.csv」のダウロードを行いましょう。
kaggle:Anime Recommendations Database vol.2
3.Pythonにて実際にレコメンド機能を実装
ここからは実際にPythonを使って、k近傍方(k-nearest neighbor)のアルゴリズムを使用して、基本的な「協調フィルタリング」のレコメンドエンジンを構築しましょう!
必要なライブラリのインポート
まずは使うライブラリののインポートから行いましょう。ご自身の環境にこれらのライブラリがインストールされていない場合は、インストールが必要です。
# 使用するライブラリのインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.sparse import csr_matrix
from sklearn.neighbors import NearestNeighbors
次に、CSVファイルをPandasのデータフレーム形式で読み込んであげましょう。CSVファイルですがKaggleのこちらのページからダウロードが可能です。また、ファイルを保存した先が異なる場合は、下記のコードでファイルパスも指定してあげましょう。
# CSVファイルをデータフレーム形式として読み込み
# 保存先が異なる場合はパスも指定してあげましょう
ratings = pd.read_csv('/content/drive/MyDrive/ratings2.csv')
anime = pd.read_csv('/content/drive/MyDrive/animes2.csv')
データを確認して見ましょう
データの読み込みが完了したので、次はデータの探索をしてみましょう。
まずは、 head()でデータの最初の5行を表示してみましょう。
# ratingのデータフレームの最初の5行を表示
ratings.head()
anime.head()
次に、このanimeのデータフレームの members の値で並び替えをしてみましょう。この members の値ですが、各アニメの購読メンバー数となていますので、並び替えをすることにより、このデータセット内にあるアニメの中の人気順が把握できるかと思います。
# animeのデータフレームをmemberの値で並び替え
anime.sort_values('members', ascending= False)[:10]
「デス・ノート」、「進撃の巨人」、「ソードアート・オンライン」といった作品が上位にあがってくるのが読み取れますね。
次にdescribe()の関数を使って、基本統計量を確認してみましょう。
# animeの基本統計量の確認
round(anime.describe(),2)
上の図の基本統計量のテーブルを見てみると、このデータの特性が見えてくるかと思います。例えば、 members の列を見て頂きたいのですが、こちらはmin(最小値)が16.0、max(最大値)が2780502となっています。最小値と最大値のレンジとしては、かなり大きく離れていますね。
また、このデータセット内のアニメの25%が525名以下の購読者数に対して、上位25%は18,000名以上の購読者数がいます。人気のアニメとそうでないアニメの差が激しいのも確認できます。
次は同様にratingsのデータフレームの基本統計量も確認してみましょう。
# ratingsの基本統計量の確認
round(ratings.describe(),2)
次は、このユーザーレーティング(アニメの評価値)のデータ分散を可視化して確認してみましょう。下記コードで、ratingsのヒストグラムの生成を行います。
# ratingsのヒストグラムを作成
ratings['rating'].hist(bins=11, figsize=(10,10), color = 'red')
データの前処理をしよう
さて、データの一通りの確認ができたら、次はデータの前処理を行います。データの前処理とは、機械学習で利用する前にデータの処理を行うことで、機械が学習をスムーズに行えるようにする為の作業です。
まずはじめに、これから構築するレコメンドエンジンの質を向上する為、 members (当該のアニメのグループに所属しているユーザー数)が15,000以下のデータを足切りをしましょう。足切りすることにより、これから構築するレコメンド機能が、メンバー数が少ないアニメ(つまり比較的人気の低いアニメ)をオススメしないようになります。
*参考までにですが、今回は15,000という値を閾値(いきち)として選びましたが、この値は適当に決めた値であり、本来であれば、より詳細を確認しながら設定するものです。
# membersの値が15,000より大きいデータのみに変更
anime = anime[anime['members'] > 15000]
次は、欠損値の処理を行いましょう。実際のデータセットは、殆どの場合でデータが「欠損(つまり欠けている)」います。完璧に全てのデータが揃っている方が珍しいくらいです。実際に機械学習のアルゴリズムを使ってモデルを構築する前に、この欠損したデータは何かしらの処理をしなくてはいけません。
# 欠損データの確認
anime.isnull().sum()
今回のアニメのデータセットでも、非常に少ない割合ではありますが欠損が確認できます。欠損データの扱いですが、こちらも様々な処理方法がありますが、今回は一番単純な方法・・・削除をしましょう。
# 欠損データをdropna()でデータセットから取り除く
anime = anime.dropna()
次にanimeとratingsのデータを「 anime_id 」を軸にして、「user_id」毎に切り分けてマージさせましょう。
# animeとratingsの2つのデータフレームをマージさせる
mergeddf = ratings.merge(anime, left_on = 'anime_id', right_on = 'anime_id', suffixes= ['_user', ''])
# 合体したデータフレームの最初の5行を表示
mergeddf.head()
これで、2つの異なるデータフレームが、ユーザーIDごとに切り分けられた一つのデータフレームとしてマージ(合体)しました。
参考までに、このマージさせたデータフレームの基本統計量も確認しておきましょう。
# mergeddfの基本統計量の確認
round(mergeddf.describe(),2)
count (データの個数)も揃ってますし、特に問題なさそうですね!
さて、ここまでいじってきたデータセットですが、今回のレコメンド機能に使うデータは「 user_id 」「 title 」「 rating_user 」の3項目のみです。データの前処理の最後の項目として、使わないデータ項目の削除と重複データのカットを行いましょう。
#不必要な項目と重複項目を削除
mergeddf = mergeddf[['user_id','title','rating_user']]
mergeddf = mergeddf.drop_duplicates(['user_id','title'])
# head()で最初の5行を表示
mergeddf.head()
さて、次の処理ですが、 title (アニメのタイトル名)がデータフレームのインデックスに、 user_id をカラムとして、ピボットさせましょう。文字で見ると、いまいち分かりにくいかも知れませんが、実際にデータフレームを処理して見てみると分かるかと思います。
またピボットの処理と併せて、ユーザーが評価していないアニメに関しては fillna(0) で「0」の値を入れてあげましょう。
# データフレームのピボット
anime_pivot = mergeddf.pivot(index= 'title',columns='user_id',values='rating_user').fillna(0)
anime_pivot_sparse = csr_matrix(anime_pivot.values)
では、実際にピボット処理を行ったこの疎行列の最初の10行を表示させて見ましょう。
# anime_pivotの最初の10行を表示
anime_pivot.head(10)
先ほど説明した通り、データフレームのindex(上記表でいう一番左の部分)がアニメのタイトルになっており、各列がユーザーのIDを表しているのが分かります。
k近傍法(k-nearest neighbors)でレコメンド機能を構築
さて、いよいよ本題のレコメンド機能の構築にうつります。今回構築するレコメンド機能ですが、k近傍法(ケイ・きんぼうほう)というアルゴリズムを利用してモデルを構築します。k近傍法ですが英語の「k-nearest neighbor(ケイ・ニアレスト・ネイバー)」またはその頭文字を取って「KNN」と呼ばれることも多いので、覚えておくと便利かと思います。
では、このk近傍法とは一体どのようなアルゴリズムなんでしょうか?
k近傍法ですが最も単純なアルゴリズムと呼ばれており、クラスタリングのアルゴリズムの一種で、一般的に分類問題などで利用されます。今回のチュートリアルの例で考えると、とあるアニメのタイトルを入力した際に、そのアニメのneighbors(ご近所さん)を探して、距離が近い(類似性が高い)アニメのタイトルをオススメとして返してくれます。
では、実際にこのk近傍法のアルゴリズムと事前に処理したデータセットを使ってモデルを構築してみましょう!今回はPythonの機械学習ライブラリ「Scikit-learn(またはSklearnとも呼ばれる)」を利用しましょう。
# Scikit-learnのライブラリを利用します
# n_neiborsやalgorithm、metricなど重要なアーギュメントを設定しています
knn = NearestNeighbors(n_neighbors=9,algorithm= 'brute', metric= 'cosine')
# 前処理したデータセットでモデルを訓練
model_knn = knn.fit(anime_pivot_sparse)
これで、モデルの構築と前処理したデータセットでの訓練が完了です!ライブラリを使うと、想像以上に簡単ですよね?では、いよいよ、この構築したアニメのレコメンド機能の実力を試してみましょう!
構築したレコメンド機能を試してみる
まず最初に、今回のデータセットですが全てアニメタイトルが英名で記載されており、探すのに一苦労しますので、簡単な検索機能を作ってあげましょう。試しに「Deai」で検索してみます。
# データセットのタイトルをキーワードで検索
def searchanime(string):
print(anime_pivot[anime_pivot.index.str.contains(string)].index[0:])
searchanime('Deai')
タイトルに「Deai」を含むアニメの一覧が検索できました! searchanime(”) にキーワードを入力すると、そのワードを含むアニメタイトルが戻ってきます。ご自身で色々なアニメで確認される際は、是非こちらの機能を使ってみてください。
では、いよいよ構築したレコメンド機能の実力を試してみましょう!アニメタイトルを入力すると、モデルは10個のオススメのアニメタイトルを返してくれるはずです。
まず私が個人的に好きな「ダンジョンに出会いを求めるのは間違っているだろうか(Dungeon ni Deai wo Motomeru no wa Machigatteiru Darou ka)」を見てみます。
# 「ダンジョンに出会いを求めるのは間違っているだろうか」に対してのオススメのアニメ10個
Anime = 'Dungeon ni Deai wo Motomeru no wa Machigatteiru Darou ka'
distance, indice = model_knn.kneighbors(anime_pivot.iloc[anime_pivot.index== Anime].values.reshape(1,-1),n_neighbors=11)
for i in range(0, len(distance.flatten())):
if i == 0:
print('Recommendations if you like the anime {0}:\n'.format(anime_pivot[anime_pivot.index== Anime].index[0]))
else:
print('{0}: {1} with distance: {2}'.format(i,anime_pivot.index[indice.flatten()[i]],distance.flatten()[i]))
4.結果の考察
1位「この素晴らしい世界に祝福を」
2位「ノーゲーム・ノーライフ」
3位「オーバーロード」
4位「アカメが斬る!」
5位「Re:ゼロから始める異世界生活」
6位「ゲート 自衛隊 彼の地にて、斯く戦えり」
7位「Charlotte」
8位「ソードアートオンラインⅡ」
9位「七つの大罪」
10位「落第騎士の英雄譚」
以上の結果となりました!6作品が異世界作品が返ってきましたね。且つ異世界作品の中でも自分が大好きな「ノーゲーム・ノーライフ」「ソードアートオンラインⅡ」が返ってきました!個人的には満足のいく結果となりました。
5.今後の展望
今回のレコメンド機能はアニメのタイトルでおすすめのアニメを返すものでした。
他にもジャンルや年代といった様々なデータがあるのでいろいろな方法でアニメを探す検索エンジンを作成していきたいと思います。また今回使用したデータセットはKaggleから引用してきたものですが、引用先のkaggleにはコードの投稿がほとんど無かったため、そちらにも投稿し、より良い検索エンジンが出てきたらいいなと思います。
6.終わりに
今回アニメの類似作品を検索するレコメンドの構築を、ネット上のコードを参考に作成しました。
初めて自分で一から触ってみて問題なく機能するコードを作ることができ、感動しております。
これを機にアニメ以外にもアーティストであったり歌であったり様々な類似検索エンジンを作成してみたいなと思いました。
またこの先AI技術がどんどん進歩していく中で、時代に置いて行かれないようプログラミングの勉強に励んで行きたいと思います。
最後までブログを読んでいただき本当にありがとうございました!
7.参考文献
データセット
kaggle:Anime Recommendations Database vol.2
参考記事
機械学習を使って630万件のレビューに基づいたアニメのレコメンド機能を作ってみよう(機械学習 k近傍法 初心者向け)