はじめに
先日、東大の 松尾研究室 が主催している データサイエンティスト育成講座 というものに参加しました。
私が参加したのは企業向けにアレンジされたもので、およそ2週間に1回、合計5日間でデータサイエンスの基礎を学ぶというものです。
カリキュラムとしては、 「東京大学のデータサイエンティスト育成講座」 という書籍をベースにして、講義半分、演習半分という感じで進んでいきました。
機械学習初心者の私が、この講座を受けてどれくらいデータ分析っぽいことができるようになったかを書き留めておこうと思います。
筆者のスペック
機械学習の経験
私自身はITエンジニアとして十数年の経験はありますが、業務でデータ分析っぽいことをやったことはほぼありません。
ただ、この講座を受ける半年ほど前に CourseraのMachine Learning を受けたり、機械学習に関する書籍を読んだりしていたのである程度の知識はありました。
とはいえ、高校数学はほぼ忘れてますし、大学数学は勉強した記憶すらありません(一応、理系でした)
Pythonでのコーディング経験
こちらも業務ではほぼありません。
今回の講座を受けることが決まって、少し勉強したレベルです。
以前のQiitaの記事 でも書いたのですが、 コーディング自体に苦手意識 をもっており、この講座を受ける前は結構不安でした。
実際、講座を受ける前にPython・NumPyを使って解くスキルチェックテストを受けたのですが、結果は散々で 「ちゃんと勉強してきてください!」 と講座の主催部署から直々に連絡がくる始末でした・・
講座を受けて
そんなこんなでヒーヒー言いながら講座を受けて、演習に取り組み、そして最終日には好きなテーマでデータ分析を行って、その成果をプレゼンすることになりました。
ということで、私が取り組んだテーマを紹介することにします。
今回使ったデータセット
データセットの選び方
業務に関わるところで使えそうなデータセットを検討したのですが見当たらず、自分が興味を持って取り組めそう、かつ扱いやすそうなデータセットを選ぼうということで、 テレビゲームのデータセット にしました。
テレビゲームの売上データセット
データセット自体は Kaggle から持ってきました。
これには、 1980年から2016年に全世界で発売されたテレビゲームが売上順 に並んでいます。
全16598タイトル、11カラム (タイトル、対象ハード、発売年、ジャンル、メーカー、地域ごとの売上本数など)のデータセットになっています。
- グローバル売上1位は意外にも Wii Sportsで8300万本 。
- 2位が初代ファミコンの スーパーマリオブラザーズで4000万本 。
- なんと 売上Top15を任天堂タイトルが独占!!
- 17位が GTA5(PS3版) だが、他のハードのものを合算すると 5600万本で2位相当 になる。
目標と実践方法
やりたいこと
大きく2つです。講座と演習でやったことをベースに取り組みました。
-
回帰モデルを作って評価する
- 海外販売本数、メーカー、ジャンルなどの説明変数から、「日本における販売本数」を予測する
-
分類モデルを作って評価する
- 各地の販売本数、ジャンル、ハードなどの説明変数から、「任天堂が発売したゲーム」を当てる
使った環境
Google Colaboratory を使用しました。
環境構築不要かつ無料で好きなだけ使えるので便利です。
最初にやったこと
講座と演習でやったことをベースにデータの加工をしていきました
- PandasのDataFrameにCSVを読み込み
- データの確認(head()、describe()、corr()、info()など・・・)
- データの前処理
- N/Aの除外(16598→16291タイトルに)
- 対象を日本で発売されたものに限定(16291→6084タイトルに)
- 発売年を年代でまとめる("2003"だったら"2000s"といったカテゴリ値に)
データの可視化(matplotlib、seaborn)
こんな感じでmatplotlibとseabornを使って視覚化しました。
メーカーごとのタイトル発売数Top50をグラフ化
- 発売タイトル数は1位がバンダイナムコ、2位が任天堂、3位がコナミ。
- 合併とか社名変更とか考慮したいところだが・・(今回は断念)
グローバルセールスTop50をメーカー別にグラフ化
- 売上だと任天堂が圧倒!2位がEAで、3位がSCE(今の社名はSIE)
ジャンル別のセールスを地域別にグラフ化
- ジャンル別セールスだとRPGは日本(緑色の棒グラフ)で特に人気。全体的にはアクションゲームが人気っぽい。
年代別に分析
- 点が左下に寄っているということは、売れてない弱小タイトルが大半を占める(パレートの法則・・)
日本における販売本数予測(回帰モデル)
海外販売本数、メーカー、ジャンルなどの説明変数から、「日本における販売本数」を予測するモデルを作成します。
試したこと
- One-hotエンコーディング
- ジャンルは12種類だからまだいいけど、メーカーは303社・・(モデル作るには多すぎるかも)
- モデル作成
- 全てを説明変数として使って重回帰(結果はボロボロ)
- モデル作成(再)
- 説明変数を相関が0.1以上のもの15個程度に絞る(北米売上とか、任天堂とか、スクエニとか、RPGとか)
- テスト分割サイズを変えてみる(0.2とか0.3とか)
- 決定木やリッジ回帰も試す(リッジ回帰がR2スコア高めだが、重回帰とそれほど差がない)
評価
- 最終的に重回帰でモデル作成して評価
- 決定係数はイマイチ
- ただ、RMSEは0.3501と低くてまずまず
あまり精度が高いとは言えませんが、とりあえず回帰モデルを作成することができました。
任天堂が発売したゲームを当てる(分類モデル)
各地の販売本数、ジャンル、ハードなどの説明変数から、「任天堂が発売したゲーム」を当てるモデルを作成します。
試したこと
- 分析
- 任天堂のゲームタイトル比率を確認。約1割であることを確認
- One-hotエンコーディングしてモデル作成
- 正解率は0.9以上で意外とよい!?
- Confusion MatrixとF1スコアで確認
- F1値悪い。そもそも任天堂タイトル以外が9割占めるから正解率高いだけだった・・
- 元データの絞り込み
- 任天堂タイトルは、任天堂ハードでしか出てないはずので、データを絞り込み
- これにより、全タイトル数6084→2192まで絞られ、任天堂タイトル比率が約3割になった
評価
- ロジスティック回帰でモデル作成して評価
- 正答率はやや低下
- しかし、F1値は多少上がった
正解率だけで評価しても意味がないことがよくわかりました。正解率が多少下がってもF1値が高いモデルのほうがよさそうです。
(おまけ)Amazon Machine Learningを試してみた
Amazon Machine Learningとは?
S3にデータセットを入れて、AWSのコンソールからGUIポチポチでモデル作成&評価をしてくれるマネージドサービスです。
ただ、既にサービス終了してしまったようで、現在では代わりとして Amazon SageMaker を使ったほうがよさそうです。
ここでは、古い方のAmazon Machine Learningを使用しています。
日本における販売本数予測(回帰モデル)
RMSEは0.3762とかなり低くよい値です。分布も真ん中によっていてかなりよさそうです。
任天堂が発売したゲームを当てる(分類モデル)
結論
ほぼノンチューニングでもかなり精度がよいです!
がんばって自力でモデルを作らなくても、こういう便利なものがあるんですね。
さいごに
感想
率直に面白かったです。ノートブックで色々試しているときは時間を忘れて熱中してました。
数学・統計の詳しい部分は正直理解できてませんが、ライブラリを使ってデータの可視化やモデル作成はなんとかできるようになりました。
ただ、ちょっとしたデータ加工やグラフ作ったりはExcelが便利ですね。今回はExcel使わない縛りで頑張りました。
今後取り組みたいこと
PythonでNumPy・Pandasなどを使いましたが、もう少し素早く扱えるようになりたいです。
データの加工処理を都度ググりながらやってたので、なかなか効率があがりませんでした。
また、数値だけでなく文字列も扱った分析ができるようになると面白いなと思いました(タイトルに"mario"や"pokemon"が入ってれば売れやすいとか分析できそう)
試行錯誤したノートブック
GitHubに今回分析に使ったノートブックを置いときます。
https://github.com/hamham1004/vgsales