LoginSignup
19
15

More than 3 years have passed since last update.

機械学習で住宅価格が予測できるなら「あつ森」の家具の価格も予測できるんじゃないか説

Posted at

はじめに🐶🐱🐰

kaggleのデータセットでこれを見つけてしまって、試さずにはいられませんでした。
データセットはこちらです。
👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset
スクリーンショット 2020-05-30 18.09.14.png
あつまれどうぶつの森(以下、あつ森)のマスターデータといった感じのデータセットです。
家具やむし、さかな、などはもちろん村人(どうぶつ)のデータも入っています。

AutoMLで分析🤖

今回は無料で使えるAutoMLツールのVARISTAを利用していきます。
👉 https://www.varista.ai/
スクリーンショット 2020-05-30 18.13.51.png

さっそく分析開始🚀

まずはデータをアップロードして中身を確認してみましょう。
「housewares.csv」を利用します。
3,275行 x 32列 897.56 KBの家具の情報が入ってるデータです。
スクリーンショット 2020-05-30 18.18.11.png
予測する列は売却価格の「Sell」です💰
なお、答え合わせように10行ほどランダムにピックアップした行を抽出しておきます。

学習に利用しない列を選んでいきましょう。

学習に利用しない列🗑

ユニークな値の列を削除

削除列 理由
Name 完全ユニークではないが売却金額が予想できるほぼ固有の値なので削除
Source 家具の入手方法、個を特定できるため削除
Source Notes 同上
Filename ゲーム内で参照するファイル名、意味のない文字列のため削除
Internal ID NameとOneToOneで紐づくIDなので削除
Unique Entry ID 意味のないID列

データリークの可能性があるため削除

スクリーンショット 2020-05-30 18.31.38.png
スクリーンショット 2020-05-30 18.31.48.png

削除列 理由
Buy 購入価格、売却価格と比例しているため、計算できてしまいデータリークになるから削除
Kit Cost 制作コスト、同上
Miles Price マイルでの購入額、同上

実際に学習してみた😳

👇学習結果はこんな感じです。
スクリーンショット 2020-05-30 19.08.29.png
スコア92と高いスコアを叩き出しました。
誤差の平均が5180ベルくらいで予測ができるモデルになりました!
(データの詳細設定から単位をつけることができます。ベルってなってるとなんかかわいい💰)

細かく見ていきましょう。

特徴の重要度

スクリーンショット 2020-05-30 19.15.19.png

重要な指標第1位は「Tag毎の平均売却額」

Tag列は家具の種類を示した列です。内容は以下のようになっています。
スクリーンショット 2020-05-30 19.12.42.png
テーブル、椅子、ベッドなど家具の種類が入っているのが分かります。
売却価格との関係性を見てみましょう。
スクリーンショット 2020-05-30 19.12.33.png
そこまではっきりとカテゴリごとに差が出ているわけではありませんが、最大値、最小値などのばらつきが見てとれます。

重要な指標第2位は「Size毎の平均売却額」

サイズはその家具が何x何マスのアイテムなのかを表しています。
スクリーンショット 2020-05-30 19.17.45.png
1x1より2x1、2x1より2x2のアイテムが高いのが分かります。
3x3のものが異様に高級だったりするのもわかります。

重要な指標第3位は「HHA Concept 2毎の平均売却額」

「HHA Concept 2」は家具のコンセプトを表します。いわゆる家具のシリーズというやつですね。
スクリーンショット 2020-05-30 19.20.24.png
Noneはコンセプトなしですが、リビングルームシリーズや、和室、ラグジュアリーシリーズだったりがあります。
スクリーンショット 2020-05-30 22.52.22.png
たしかにシリーズによって金額に大きな差が見られます。
「expensive」コンセプトは高く、「living room」コンセプト、「office」コンセプトなどはリーズナブルなのがわかります。
これらの値を考慮して、予測値を出している模様

検証データによる予測結果

答え合わせ💰

今回答え合わせ用に5つの家具をピックアップしておきました。
VARISTAで予測をし、それぞれ答え合わせをしていきます。
予測のフォーマットを整数にして、予測実行!
スクリーンショット 2020-05-30 18.58.52.png

ダブルソファ

スクリーンショット 2020-05-30 19.01.09.png

タグ サイズ コンセプト
Sofa 2x1 living room

売却価格: 1300ベル
予想売却価格: 1115ベル
誤差: -285ベル

キャンディマシン

スクリーンショット 2020-05-30 19.01.37.png

タグ サイズ コンセプト
Shop 1x1 shop

売却価格: 700ベル
予想売却価格: 916ベル
誤差: +216ベル

ハンモック

スクリーンショット 2020-05-30 19.02.28.png

タグ サイズ コンセプト
Bed 2x1 outdoors

売却価格: 325ベル
予想売却価格: 318ベル
誤差: -7ベル
ほぼぴったり!!😮

DJブース

スクリーンショット 2020-05-30 19.01.54.png

タグ サイズ コンセプト
Musical Instrument 2x1 party

売却価格: 2325ベル
予想売却価格: 2501ベル
誤差: +176ベル

くまのトクダイちゃん

スクリーンショット 2020-05-30 19.02.11.png

タグ サイズ コンセプト
Animal 3x3 fancy

売却価格: 6300ベル
予想売却価格: 6008ベル
誤差: -292ベル

おわり🌳

スクリーンショット 2020-05-30 23.10.51.png

結構な精度が出せましたが、ゲームのマスターデータはもともと、一定のルールのもと金額などが決められているため、予測がしやすかったのかもしれません。(それかどっかでリークしてる?確認します。)
このように、自分に親しみのあるデータで分析を行うとやっぱり楽しいですよね😋
みなさんも是非遊んでみてください!

19
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
19
15