1 はじめに
今までプログラミングスクールで学んできた内容を生かしてnishikaの中古マンションの住宅価格予測のコンペをやっていこうと思います
2 解決するためには
住宅マンションの価格は距離や都道府県などで変動しているので分析など注意深く行っていくようにします
3 実行環境
パソコン:ASUS
開発環境:Anaconnda spyder
言語:Python
ライブラリ:Pandas、Numpy、Matplotlib、sklearn 等
4 分析するデータ
今回は以下のデータを使用して分析を行っていきます
5 分析の流れ
①47都道府県のデータを一括にする
②データの確認
③データの分析
④重視する変数の選定
⑤モデルを作って予測を行う 今回予測精度の評価はmae(mean_absolute_error)で行っていこうと思います
6 分析
①、②47都道府県のデータを一括にするのとデータの確認をする
まず必要なライブラリをインポートをしてCSVファイルを読み込みます
この時47都道府県のでーたを一括して読み込んでいきます
③ データの分析
この時取引価格(総額)_logになっていてlogで計算は行わないので
のコードを実行した
次に一つ一つの変数と取引価格の分析を行う
※データの変数と欠損値の量
この時欠損値が多い変数やグラフ化してもわからないような変数は分析ができないので分析は行わない
例として価格情報区分の変数の分析を行う
実行結果とデータの可視化
分析結果から不動産取引価格情報の量は成約価格情報に比べて多いが成約価格情報の平均値は不動産取引価格情報に比べて多いというのが分かった
このように分析できる変数一つ一つ分析した結果が以下の内容である
なお 建ぺい率と容積率と取引時点は欠損値が多い等の理由でデータ分析は行わなかった
④重視するデータの選定
今回重視するデータは面積と建築年を使って予測を行っていこうと思います
⑤モデルを使って予測を行う
今回はMAE(mean_absolute_error)という精度指標を使います
実行したコード
モデルを予測する前に欠損値の処理やdf.unique()を使って変数の中に戦前や2000m以上という文字が紛れているので欠損値の処理と並行して行っていく
最後のコードでnishikaに提出する用のファイルも完成できたのでnishikaに提出していきます
7 今後の課題
今回はモデル予測に2つの変数しか使いませんでしたが距離や建物の構造などの変数を使用して今後も予測をしていこうと思います
8 まとめ
今回の中古マンションの価格予測でpythohの基礎やデータ分析でやらなきゃいけないこと等を学べました。一つエラーが出た時の対処法や分析結果が思ったような結果じゃなかったときはコードにおかしなところはないか?や分析結果のデータフレームに欠損値があるかも?といったところに気を配り、落ち着いて対処していこうと思いました。
次の目標はまた新しいコンペに参加することと加えて今回の予測で2つの変数しか使っていないので使える変数はすべて使ってデータ分析を行っていこうと思います