本記事は、前回の記事の続きとなります。
はじめに
前回に続いてアニメデータセットを用いてデータ分析を行っていきます。
今回は人にアニメをおすすめする時というシチュエーションで分析を行っていきたいと思います。
レシピ
~前編:データセット作成編~
- APIアカウントの取得
- APIを利用したスクレイピング
- データセットとしてKaggleに公開
~後編:データ分析編~ - ジャンルによるグルーピング
- KNNを用いたユーザベースリコメンデーション
4. ジャンルによるグルーピング
まず、皆さん。
人にアニメをおすすめするとしたら何をおすすめしますか?
自分の一番好きなアニメをおすすめする人もいると思いますが、その人が好きそうなジャンルで有名な作品をとりあえずおすすめしませんか?
私は相手がライトオタクの方ならそうします。
ということで、まずがアニメデータセットを用いて各ジャンルのビッグタイトルを分析していきたいと思います。
Codeはこちらに記載しておりますので、こちらを参考に読み進めて頂ければと思います。
※Qiitaには流れしか書いていないので、Codeを確認したい場合はこのリンクを必ずご確認ください。
まず、はじめにanimes.csvのデータを読み込んでデータフレーム(以下、df)を作成していきます。
作成したdfは以下のようになりました。
15,220のアニメリストが作成されているのが分かりますね。
これなら網羅的にアニメのリコメンドができそうです。
次に、評価の平均値が高かった順にソートします。
データの出典が海外のサイトなので、表記がすべて英語なのですが、鋼の錬金術師、シュタインズゲート、進撃の巨人の順に並んでいるのが分かりますね。
シュタインズゲートは個人的にも本当に好きなアニメなので嬉しいです。
次は各ジャンルのビッグタイトルを見ていきましょう。
こうすることで相手の好みのジャンルさえわかればある程度のアニメをおすすめすることが可能になりますね。
私はスポ根アニメが一番好きなので、スポーツのジャンルで見ていきましょう。
今度はdfから"genres"の列に"Sports"が入っているものを抽出して評価の高いアニメを取り出してみます。
1位はハイキュー!! 烏野高校 VS 白鳥沢学園高校でしたね!
これはハイキューでいうと3期ですね。宮城県大会の決勝戦のクールです。
ハイキューはテニプリや黒バスみたいな異次元さはない分、心理描写を細かく描いていて素敵ですよね。
さて、他にはちはやふるや風が強く吹いているなんかもランクインしていますね。
どれもスポ根が好きな人には刺さるタイトル間違いなしだと思うのでジャンルでソートするだけでも面白い結果になったと思います。
また、トップ1000タイトルのジャンルの数をカウントして可視化してみた図がこちらになります。
コメディやバトル、少年系が人気が高く、逆にSFやミステリ、少女系がトップ1000タイトルの中では出現率が低い結果となりました。
世界的に有名な少年漫画があっても、世界的に有名な少女漫画ってなさそうですもんね。らんまとか犬夜叉って有名だと思うんだけど世界っていうとまた違うのかな。
あと、SAOや攻殻機動隊はSFに入るんじゃないかと思いますが、やはりバトルモノに比べたら分かりづらいということなのでしょうか。
5. KNNを用いたユーザベースリコメンデーション
さて、これでライトオタクの方にはある程度おすすめするアニメの見当がつきましたが、すでに100本以上アニメを見られている方であればビッグタイトルはもう全部視聴済かもしれませんね。
そんな方にアニメをおすすめする時に参考にしたいのがレコメンデーションシステムですね。
レコメンデーションシステムには大きく2つありますが、今回は協調フィルタリングの仕組みを採用したユーザベースのレコメンドシステムを構築していきます。
KNNの学習に関しては、こちらを参考にしました。
Codeはこちらをご確認ください。
4章ではanimes.csvしか使いませんでしたが、本章ではratings.csvも同時に利用していきます。
簡単に、ratings.csvの先頭データを確認しましょう。
このようにanime_idで識別されたアニメタイトルに各ユーザが点数をつけていることがわかります。
点数は1~10点で0点は未採点を表しています。
次に、点数の分布をヒストグラムで確認していきましょう。
上図を見ると7点以上の評価がほとんどであることがわかりますね。皆さん好きなアニメを積極的に評価しているのでしょうか。
次にノイズを除去していきたいと思います。
membersが1万人以下のタイトルを省き、anime_idでマージした後に学習に用いる特徴量だけを抽出します。
今回の場合は[user_id, title, rating_user]を特徴量とします。
1つのタイトルごとにたくさんのユーザの評価が付いていますね。
今度はこの表を各アニメタイトルごとに全ユーザを列に取るようにピボットします。
このように行に全アニメ、列に全ユーザ、値に全評価データが格納されたテーブルを作成することができました。
それでは最後にK最近傍法というモデルを使ってリコメンドシステムを構築していきます。
ここで、k最近傍法というのは任意のデータに対して、その近傍のデータクラスの多数決を取ることによって、任意のデータのクラスを分類するというものになります。
kというのが近傍で参考にするデータの数で上図だとk=3、青が1つと赤が2つで緑のデータのクラスは赤であるという分類手法になります。
今回はあるデータ(アニメ)を分類するのではなくて、あるアニメから近い距離(コサイン類似度)にあるアニメを10個探索するモデルを作成しました。
では、早速ちはやふるに近いアニメを10個探索してみましょう。
結果は、ちはやふるの他のシリーズが上位なのは当然として、他に君に届け、坂道のアポロンと少女漫画 x スポ根といった感じでとても類似するアニメが探索されたと思います!
最後に、恋は雨上がりのようにでも探索をしてみたいと思います。
恋雨はちはやふるに比べればマイナーなのでどんなアニメと類似するかが楽しみです。
個人的に夏雪ランデブーとかがヒットするとすごいなーって思いますね。なんとなく雰囲気似てませんか??
ということで、
結果はこんな感じでした!
ヲタクに恋は難しいが入ってくるのが分かるとして、まさかのクズの本懐が2番目に類似すると判定されました笑
たしかに、なんとなくダーク?な感じだったんですかね。
おわりに
以上となります!
これまでお読み頂いた方はありがとうございました。
API使うの楽しいですね。
いろんなサービスがマッシュアップ的に連携することに夢を感じます。
今回はデータセットを作るというお話でしたが、いよいよKaggleコンペの方にも参加したいですね。
それでは、また