More than 5 years have passed since last update.

【Kaggle】アニメデータセットの作成から分析まで：後編

Posted at 2021-05-09

本記事は、前回の記事の続きとなります。

はじめに

前回に続いてアニメデータセットを用いてデータ分析を行っていきます。

今回は人にアニメをおすすめする時というシチュエーションで分析を行っていきたいと思います。

レシピ

～前編：データセット作成編～

APIアカウントの取得
APIを利用したスクレイピング
データセットとしてKaggleに公開
～後編：データ分析編～
ジャンルによるグルーピング
KNNを用いたユーザベースリコメンデーション

4. ジャンルによるグルーピング

まず、皆さん。
人にアニメをおすすめするとしたら何をおすすめしますか？

自分の一番好きなアニメをおすすめする人もいると思いますが、その人が好きそうなジャンルで有名な作品をとりあえずおすすめしませんか？
私は相手がライトオタクの方ならそうします。

ということで、まずがアニメデータセットを用いて各ジャンルのビッグタイトルを分析していきたいと思います。

Codeはこちらに記載しておりますので、こちらを参考に読み進めて頂ければと思います。
※Qiitaには流れしか書いていないので、Codeを確認したい場合はこのリンクを必ずご確認ください。

まず、はじめにanimes.csvのデータを読み込んでデータフレーム（以下、df）を作成していきます。

作成したdfは以下のようになりました。

15,220のアニメリストが作成されているのが分かりますね。
これなら網羅的にアニメのリコメンドができそうです。

次に、評価の平均値が高かった順にソートします。

データの出典が海外のサイトなので、表記がすべて英語なのですが、鋼の錬金術師、シュタインズゲート、進撃の巨人の順に並んでいるのが分かりますね。
シュタインズゲートは個人的にも本当に好きなアニメなので嬉しいです。

次は各ジャンルのビッグタイトルを見ていきましょう。
こうすることで相手の好みのジャンルさえわかればある程度のアニメをおすすめすることが可能になりますね。

私はスポ根アニメが一番好きなので、スポーツのジャンルで見ていきましょう。
今度はdfから"genres"の列に"Sports"が入っているものを抽出して評価の高いアニメを取り出してみます。

1位はハイキュー!! 烏野高校 VS 白鳥沢学園高校でしたね！
これはハイキューでいうと3期ですね。宮城県大会の決勝戦のクールです。
ハイキューはテニプリや黒バスみたいな異次元さはない分、心理描写を細かく描いていて素敵ですよね。

さて、他にはちはやふるや風が強く吹いているなんかもランクインしていますね。
どれもスポ根が好きな人には刺さるタイトル間違いなしだと思うのでジャンルでソートするだけでも面白い結果になったと思います。

また、トップ1000タイトルのジャンルの数をカウントして可視化してみた図がこちらになります。

コメディやバトル、少年系が人気が高く、逆にSFやミステリ、少女系がトップ1000タイトルの中では出現率が低い結果となりました。
世界的に有名な少年漫画があっても、世界的に有名な少女漫画ってなさそうですもんね。らんまとか犬夜叉って有名だと思うんだけど世界っていうとまた違うのかな。
あと、SAOや攻殻機動隊はSFに入るんじゃないかと思いますが、やはりバトルモノに比べたら分かりづらいということなのでしょうか。