18
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

機械学習で住宅価格が予測できるなら「あつ森」の家具の価格も予測できるんじゃないか説

Posted at

#はじめに🐶🐱🐰
kaggleのデータセットでこれを見つけてしまって、試さずにはいられませんでした。
データセットはこちらです。
👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset
スクリーンショット 2020-05-30 18.09.14.png
あつまれどうぶつの森(以下、あつ森)のマスターデータといった感じのデータセットです。
家具やむし、さかな、などはもちろん村人(どうぶつ)のデータも入っています。

#AutoMLで分析🤖
今回は無料で使えるAutoMLツールのVARISTAを利用していきます。
👉 https://www.varista.ai/
スクリーンショット 2020-05-30 18.13.51.png
#さっそく分析開始🚀
まずはデータをアップロードして中身を確認してみましょう。
「housewares.csv」を利用します。
3,275行 x 32列 897.56 KBの家具の情報が入ってるデータです。
スクリーンショット 2020-05-30 18.18.11.png
予測する列は売却価格の**「Sell」**です💰
なお、答え合わせように10行ほどランダムにピックアップした行を抽出しておきます。

学習に利用しない列を選んでいきましょう。

#学習に利用しない列🗑
###ユニークな値の列を削除

削除列 理由
Name 完全ユニークではないが売却金額が予想できるほぼ固有の値なので削除
Source 家具の入手方法、個を特定できるため削除
Source Notes 同上
Filename ゲーム内で参照するファイル名、意味のない文字列のため削除
Internal ID NameとOneToOneで紐づくIDなので削除
Unique Entry ID 意味のないID列
###データリークの可能性があるため削除
スクリーンショット 2020-05-30 18.31.38.png スクリーンショット 2020-05-30 18.31.48.png
削除列 理由
Buy 購入価格、売却価格と比例しているため、計算できてしまいデータリークになるから削除
Kit Cost 制作コスト、同上
Miles Price マイルでの購入額、同上

#実際に学習してみた😳
👇学習結果はこんな感じです。
スクリーンショット 2020-05-30 19.08.29.png
スコア92と高いスコアを叩き出しました。
誤差の平均が5180ベルくらいで予測ができるモデルになりました!
(データの詳細設定から単位をつけることができます。ベルってなってるとなんかかわいい💰)

細かく見ていきましょう。
###特徴の重要度
スクリーンショット 2020-05-30 19.15.19.png
###重要な指標第1位は「Tag毎の平均売却額」
Tag列は家具の種類を示した列です。内容は以下のようになっています。
スクリーンショット 2020-05-30 19.12.42.png
テーブル、椅子、ベッドなど家具の種類が入っているのが分かります。
売却価格との関係性を見てみましょう。
スクリーンショット 2020-05-30 19.12.33.png
そこまではっきりとカテゴリごとに差が出ているわけではありませんが、最大値、最小値などのばらつきが見てとれます。

###重要な指標第2位は「Size毎の平均売却額」
サイズはその家具が何x何マスのアイテムなのかを表しています。
スクリーンショット 2020-05-30 19.17.45.png
1x1より2x1、2x1より2x2のアイテムが高いのが分かります。
3x3のものが異様に高級だったりするのもわかります。

###重要な指標第3位は「HHA Concept 2毎の平均売却額」
「HHA Concept 2」は家具のコンセプトを表します。いわゆる家具のシリーズというやつですね。
スクリーンショット 2020-05-30 19.20.24.png
Noneはコンセプトなしですが、リビングルームシリーズや、和室、ラグジュアリーシリーズだったりがあります。
スクリーンショット 2020-05-30 22.52.22.png
たしかにシリーズによって金額に大きな差が見られます。
「expensive」コンセプトは高く、「living room」コンセプト、「office」コンセプトなどはリーズナブルなのがわかります。
これらの値を考慮して、予測値を出している模様

###検証データによる予測結果
#答え合わせ💰
今回答え合わせ用に5つの家具をピックアップしておきました。
VARISTAで予測をし、それぞれ答え合わせをしていきます。
予測のフォーマットを整数にして、予測実行!
スクリーンショット 2020-05-30 18.58.52.png

###ダブルソファ
スクリーンショット 2020-05-30 19.01.09.png

タグ サイズ コンセプト
Sofa 2x1 living room
売却価格: 1300ベル
予想売却価格: 1115ベル
誤差: -285ベル

###キャンディマシン
スクリーンショット 2020-05-30 19.01.37.png

タグ サイズ コンセプト
Shop 1x1 shop
売却価格: 700ベル
予想売却価格: 916ベル
誤差: +216ベル

###ハンモック
スクリーンショット 2020-05-30 19.02.28.png

タグ サイズ コンセプト
Bed 2x1 outdoors
売却価格: 325ベル
予想売却価格: 318ベル
誤差: -7ベル
ほぼぴったり!!😮

###DJブース
スクリーンショット 2020-05-30 19.01.54.png

タグ サイズ コンセプト
Musical Instrument 2x1 party
売却価格: 2325ベル
予想売却価格: 2501ベル
誤差: +176ベル

###くまのトクダイちゃん
スクリーンショット 2020-05-30 19.02.11.png

タグ サイズ コンセプト
Animal 3x3 fancy
売却価格: 6300ベル
予想売却価格: 6008ベル
誤差: -292ベル

#おわり🌳
スクリーンショット 2020-05-30 23.10.51.png

結構な精度が出せましたが、ゲームのマスターデータはもともと、一定のルールのもと金額などが決められているため、予測がしやすかったのかもしれません。(それかどっかでリークしてる?確認します。)
このように、自分に親しみのあるデータで分析を行うとやっぱり楽しいですよね😋
みなさんも是非遊んでみてください!

18
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
18
15

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?