2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ポケモンで学ぶデータサイエンス データ正規化編

Posted at

前書き

さて、皆さんポケモンはご存じでしょうか
ポケットモンスターは現在700以上たくさんの種類のポケモンが存在し、
それぞれのポケモンが個性を持ったとても面白い作品です

アニメ、映画などだけではなく、ゲームとしても人気の作品です
ポケモンそれぞれに様々な特徴が与えられ、日々ポケモンバトルが繰り広げられています。
トレーナーが自分の好きなポケモンや強いポケモンを使い、最強のポケモントレーナーになるのが最近の主流となっています。

ゲーム上のポケモンのデータを使用し、データ分析を行います

データ分析の手順

  1. 目的の設定:

    • 分析の目的を明確にします。何を知りたいのか、どのような問題を解決したいのかを定義します。
  2. データ収集:

    • 必要なデータを集めます。データベース、ウェブスクレイピング、アンケートなど、さまざまな方法でデータを収集します
  3. データの前処理:

    • データのクリーニング(欠損値の処理、異常値の除去など)を行います。また、必要に応じてデータの変換や標準化も行います
  4. データの探索:

    • データの基本的な統計量を計算し、分布や相関関係を確認します。可視化ツールを使ってデータのパターンやトレンドを見つけます
  5. モデルの選択と構築:

    • 分析の目的に応じて適切なモデルを選びます。例えば、回帰分析、分類、クラスタリングなどがあります。選んだモデルを使ってデータを分析します
  6. モデルの評価:

    • モデルの性能を評価します。精度、再現率、F値などの評価指標を使ってモデルの有効性を確認します
  7. 結果の解釈と報告:

    • 分析結果を解釈し、目的に対する洞察を得ます。結果を分かりやすく報告書やプレゼンテーションにまとめます
  8. 意思決定とアクション:

    • 分析結果に基づいて意思決定を行い、具体的なアクションを取ります

1.目的設定

今回は、「ポケモンを自分の会社の従業員と考えて、優秀な人材を見つけること」とします

2. データ収集:

以下のサイトから引用させていただきました
ポケモンSVまでのポケモン合計902種類存在しま。(アローラの種類などもあり)
https://rikapoke.hatenablog.jp/entry/pokemon_datasheet_gne7
image.png

3. データの前処理3-1 データクリーニング

このCSVファイルを加工する際にどのような点が気になりましたか。
今回のデータは正規化されていない状態です
図鑑番号が統一されていない
一つのポケモンにタイプが2つ存在していることがある
ポケモンは通常一つしか特性を持っていないが、複数の特性が付与されている
今回はRDB(リレーショナルデータベース)にデータを格納したいため、
このデータを第三正規化していきたいと思います

image.png
赤色:IDが非統一化
青色:NULLの状態
緑色:特性の重複

1.図鑑番号の削除、PokemonIdの追加
image.png

2.タイプテーブルの作成
image.png

3.特性テーブルの作成
image.png

4.通常特性ID1,2,夢特性IDの作成
正規化完了
image.png

データのクリーニングは簡単そうに見えるが、意外とミスの原因となる

  • 置換を多用することによって、元データが改ざんされてしまうこと
  • データに半角スペースの混在により、VLOOKUP関数などがうまく作用しない

感想
今回の簡単なクリーニングですらも、1時間ほどかかってしまった。
現在は、練習もかねて、スクラッチでやっているが、AIなどを使うともっと効率が良いのかもしれない。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?