前書き
さて、皆さんポケモンはご存じでしょうか
ポケットモンスターは現在700以上たくさんの種類のポケモンが存在し、
それぞれのポケモンが個性を持ったとても面白い作品です
アニメ、映画などだけではなく、ゲームとしても人気の作品です
ポケモンそれぞれに様々な特徴が与えられ、日々ポケモンバトルが繰り広げられています。
トレーナーが自分の好きなポケモンや強いポケモンを使い、最強のポケモントレーナーになるのが最近の主流となっています。
ゲーム上のポケモンのデータを使用し、データ分析を行います
データ分析の手順
-
目的の設定:
- 分析の目的を明確にします。何を知りたいのか、どのような問題を解決したいのかを定義します。
-
データ収集:
- 必要なデータを集めます。データベース、ウェブスクレイピング、アンケートなど、さまざまな方法でデータを収集します
-
データの前処理:
- データのクリーニング(欠損値の処理、異常値の除去など)を行います。また、必要に応じてデータの変換や標準化も行います
-
データの探索:
- データの基本的な統計量を計算し、分布や相関関係を確認します。可視化ツールを使ってデータのパターンやトレンドを見つけます
-
モデルの選択と構築:
- 分析の目的に応じて適切なモデルを選びます。例えば、回帰分析、分類、クラスタリングなどがあります。選んだモデルを使ってデータを分析します
-
モデルの評価:
- モデルの性能を評価します。精度、再現率、F値などの評価指標を使ってモデルの有効性を確認します
-
結果の解釈と報告:
- 分析結果を解釈し、目的に対する洞察を得ます。結果を分かりやすく報告書やプレゼンテーションにまとめます
-
意思決定とアクション:
- 分析結果に基づいて意思決定を行い、具体的なアクションを取ります
1.目的設定
今回は、「ポケモンを自分の会社の従業員と考えて、優秀な人材を見つけること」とします
2. データ収集:
以下のサイトから引用させていただきました
ポケモンSVまでのポケモン合計902種類存在しま。(アローラの種類などもあり)
https://rikapoke.hatenablog.jp/entry/pokemon_datasheet_gne7
3. データの前処理3-1 データクリーニング
このCSVファイルを加工する際にどのような点が気になりましたか。
今回のデータは正規化されていない状態です
・図鑑番号が統一されていない
・一つのポケモンにタイプが2つ存在していることがある
・ポケモンは通常一つしか特性を持っていないが、複数の特性が付与されている
今回はRDB(リレーショナルデータベース)にデータを格納したいため、
このデータを第三正規化していきたいと思います
赤色:IDが非統一化
青色:NULLの状態
緑色:特性の重複
データのクリーニングは簡単そうに見えるが、意外とミスの原因となる
- 置換を多用することによって、元データが改ざんされてしまうこと
- データに半角スペースの混在により、VLOOKUP関数などがうまく作用しない
感想
今回の簡単なクリーニングですらも、1時間ほどかかってしまった。
現在は、練習もかねて、スクラッチでやっているが、AIなどを使うともっと効率が良いのかもしれない。