#こんにちわ🐶🐰🐱
前回記事(機械学習で住宅価格が予測できるなら「あつ森」の家具の価格も予測できるんじゃないか説)に引き続き
あつ森のデータで遊んでいると、面白い結果を発見したので、記事にしました!
#データ😎
データは前回記事と同じ、kaggleのあつ森データセットです。
👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset
今回利用したのは「villagers.csv」ファイルです。
どうぶつ達のマスターデータとなっています。
以下のような列構成になっています。
インデックス | 列名 | タイプ | ユニーク数 | 最頻値 | 最大値 | 最小値 | 平均値 | 標準偏差 |
---|---|---|---|---|---|---|---|---|
0 | Name | 文字列 | 391 | Admiral | - | - | - | - |
1 | Species | 文字列 | 35 | Cat | - | - | - | - |
2 | Gender | 文字列 | 2 | Male | - | - | - | - |
3 | Personality | 文字列 | 8 | Lazy | - | - | - | - |
4 | Hobby | 文字列 | 6 | Fashion | - | - | - | - |
5 | Birthday | 文字列 | 361 | 1-Dec | - | - | - | - |
6 | Catchphrase | 文字列 | 388 | bloop | - | - | - | - |
7 | Favorite Song | 文字列 | 89 | Forest Life | - | - | - | - |
8 | Style 1 | 文字列 | 6 | Simple | - | - | - | - |
9 | Style 2 | 文字列 | 6 | Simple | - | - | - | - |
10 | Color 1 | 文字列 | 14 | Black | - | - | - | - |
11 | Color 2 | 文字列 | 14 | Red | - | - | - | - |
12 | Wallpaper | 文字列 | 154 | backyard-fence wall | - | - | - | - |
13 | Flooring | 文字列 | 128 | backyard lawn | - | - | - | - |
14 | Furniture List | 文字列 | 391 | 10742;10742;~ | - | - | - | - |
15 | Filename | 文字列 | 391 | ant00 | - | - | - | - |
16 | Unique Entry ID | 文字列 | 391 | 25GGGSHzwEnKmepJk | - | - | - | - |
答え合わせ用に一見性別がどっちかわからなそうな、どうぶつ数体分のデータを抜き取っておきます。
#ビジュアライズでデータをみてみよう⭐️
####男女比
Male: 199
Female: 185
と大体均衡になってます。
###種族の分布
猫、うさぎ、リスってモロ人気出そうなあざと可愛い系キャラがおおくなっとる😨
こういうことを平然とやってのけるNintendo、おそるべし。
相関関係も見てみましょう!
ゴリラ男しかいないんかいw
結構種族によって男女比はバラバラなんですね。
他の列も結構カテゴリによって男女比はばらつきがある模様。
#オートで学習🤖
まずは学習に利用しない列を選びます。
Name, Filename, Unique Entry IDなどは固有値になってるので削除!
###学習スタート🚀
約2分ほどで学習完了しました。
スコアは81となかなかですね!
精度も80%超えているため、いい感じの精度のモデルが出来上がりました。
影響度の高い要因を確認してみると...😲
すげーリアルな趣味趣向で男女が分けられてやがるっ!!!
影響度の高い要因をみてみましょう
###影響度ランキング1位はなんと、「好きな曲」!!
そうか、女子は女子らしい曲、男は男らしい曲がみんな好きなわけか!!
村人に、「好きな曲何?」って聞いたらだいたい性別が推測できちゃうわけかーーー
確かに中学の頃とか男はみんなBUMPが好きだし、女はみんな倖田來未が好きだったわ。
###そして、2位は「2番目の色」
1番目の色じゃねーーの?と思いました。
顔のメインカラーは白で、それに青がポイントであると男の子っぽいし
ピンクが乗ってると女の子っぽいって感じなのでしょうか
###3位は「スタイル1」
スタイル1とは、好きな家具や服の好みで、シンプル・クール・アクティブ・ゴージャスなどがあります。
これも納得ですね。
人間も趣味趣向で、だいたい男女わかりますもんね。
#その他の結果
こんな感じでした。
###混同行列
###閾値
#モデルによる予測と答え合わせ🙆♂️🙅♂️
男女がわかりづらいこいつらをAIによって、白黒はっきりさせてあげましょう。
###エントリーナンバー1「1ごう」
赤レンジャーってことはおそらく男なんだろうが、仮面とタイツのせいでわかりづらい!
ということで予測します!
正解: 「男の子」
予測結果: 87%の確率で「男の子」
⭕️ 正解
###エントリーナンバー2「ジュペッティ」
一見男の子っぽさもあるが、化粧がハートってのもあり、女の子にも見えます。
正解: 「男の子」
予測結果: 86%の確率で「女の子」
❌ 大はずれ
サブカラーが「赤」、スタイル2が「シンプル」と女の子に多い特性だったのか??
###エントリーナンバー3「ラッキー」
顔が見えんw
正解: 「男の子」
予測結果: 97%の確率で「男の子」
⭕️ 正解
見た目はあれだが、あからさまな男の子の趣味だったのだろう
###エントリーナンバー4「マグロ」
うーーーん、実に微妙な容姿。髪型とか見ると男っぽさもあるが、全体はピンクで可愛いし
正解: 「女の子」(女の子でこの名前はちょっと問題あるんじゃねーの?)
予測結果: 97%の確率で「女の子」
⭕️ 正解
趣味が「ファッション」、スタイル1が「シンプル」、スタイル2が「キュート」まあいかにも女の子な中身だったんですね。
#まとめ
いやーー、あつ森スタッフのキャラへの愛情がよくわかります。
それぞれのキャラに、ちゃんとこの子は女の子でこういう性格だからこの曲が好きで、この壁紙が好きでと
ちゃんとそのどうぶつ目線でマスターデータを作っていると思うと、感動します。
ゲームバランスやバグには関係ないことにここまで時間と労力をかけて世界観を作り出していることは本当に称賛に値します。
みなさんも、データで遊んでみては??
👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset
👉 https://www.varista.ai