はじめに🐶🐱🐰
kaggleのデータセットでこれを見つけてしまって、試さずにはいられませんでした。
データセットはこちらです。
👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset

あつまれどうぶつの森(以下、あつ森)のマスターデータといった感じのデータセットです。
家具やむし、さかな、などはもちろん村人(どうぶつ)のデータも入っています。
AutoMLで分析🤖
今回は無料で使えるAutoMLツールのVARISTAを利用していきます。
👉 https://www.varista.ai/

さっそく分析開始🚀
まずはデータをアップロードして中身を確認してみましょう。
「housewares.csv」を利用します。
3,275行 x 32列 897.56 KBの家具の情報が入ってるデータです。

予測する列は売却価格の**「Sell」**です💰
なお、答え合わせように10行ほどランダムにピックアップした行を抽出しておきます。
学習に利用しない列を選んでいきましょう。
学習に利用しない列🗑
ユニークな値の列を削除
| 削除列 | 理由 |
|---|---|
| Name | 完全ユニークではないが売却金額が予想できるほぼ固有の値なので削除 |
| Source | 家具の入手方法、個を特定できるため削除 |
| Source Notes | 同上 |
| Filename | ゲーム内で参照するファイル名、意味のない文字列のため削除 |
| Internal ID | NameとOneToOneで紐づくIDなので削除 |
| Unique Entry ID | 意味のないID列 |
データリークの可能性があるため削除
| 削除列 | 理由 |
|---|---|
| Buy | 購入価格、売却価格と比例しているため、計算できてしまいデータリークになるから削除 |
| Kit Cost | 制作コスト、同上 |
| Miles Price | マイルでの購入額、同上 |
実際に学習してみた😳
👇学習結果はこんな感じです。

スコア92と高いスコアを叩き出しました。
誤差の平均が5180ベルくらいで予測ができるモデルになりました!
(データの詳細設定から単位をつけることができます。ベルってなってるとなんかかわいい💰)
細かく見ていきましょう。
特徴の重要度
### 重要な指標第1位は「Tag毎の平均売却額」
Tag列は家具の種類を示した列です。内容は以下のようになっています。
テーブル、椅子、ベッドなど家具の種類が入っているのが分かります。
売却価格との関係性を見てみましょう。
そこまではっきりとカテゴリごとに差が出ているわけではありませんが、最大値、最小値などのばらつきが見てとれます。
重要な指標第2位は「Size毎の平均売却額」
サイズはその家具が何x何マスのアイテムなのかを表しています。

1x1より2x1、2x1より2x2のアイテムが高いのが分かります。
3x3のものが異様に高級だったりするのもわかります。
重要な指標第3位は「HHA Concept 2毎の平均売却額」
「HHA Concept 2」は家具のコンセプトを表します。いわゆる家具のシリーズというやつですね。

Noneはコンセプトなしですが、リビングルームシリーズや、和室、ラグジュアリーシリーズだったりがあります。

たしかにシリーズによって金額に大きな差が見られます。
「expensive」コンセプトは高く、「living room」コンセプト、「office」コンセプトなどはリーズナブルなのがわかります。
これらの値を考慮して、予測値を出している模様
検証データによる予測結果
答え合わせ💰
今回答え合わせ用に5つの家具をピックアップしておきました。
VARISTAで予測をし、それぞれ答え合わせをしていきます。
予測のフォーマットを整数にして、予測実行!

ダブルソファ
| タグ | サイズ | コンセプト |
|---|---|---|
| Sofa | 2x1 | living room |
| 売却価格: 1300ベル | ||
| 予想売却価格: 1115ベル | ||
| 誤差: -285ベル |
キャンディマシン
| タグ | サイズ | コンセプト |
|---|---|---|
| Shop | 1x1 | shop |
| 売却価格: 700ベル | ||
| 予想売却価格: 916ベル | ||
| 誤差: +216ベル |
ハンモック
| タグ | サイズ | コンセプト |
|---|---|---|
| Bed | 2x1 | outdoors |
| 売却価格: 325ベル | ||
| 予想売却価格: 318ベル | ||
| 誤差: -7ベル | ||
| ほぼぴったり!!😮 |
DJブース
| タグ | サイズ | コンセプト |
|---|---|---|
| Musical Instrument | 2x1 | party |
| 売却価格: 2325ベル | ||
| 予想売却価格: 2501ベル | ||
| 誤差: +176ベル |
くまのトクダイちゃん
| タグ | サイズ | コンセプト |
|---|---|---|
| Animal | 3x3 | fancy |
| 売却価格: 6300ベル | ||
| 予想売却価格: 6008ベル | ||
| 誤差: -292ベル |
おわり🌳
結構な精度が出せましたが、ゲームのマスターデータはもともと、一定のルールのもと金額などが決められているため、予測がしやすかったのかもしれません。(それかどっかでリークしてる?確認します。)
このように、自分に親しみのあるデータで分析を行うとやっぱり楽しいですよね😋
みなさんも是非遊んでみてください!