More than 5 years have passed since last update.

kaggleに初めて投稿した話

Last updated at 2019-11-16Posted at 2019-11-15

この記事の対象者

対象
惑わされない方
生暖かく見守れる方
非対象
間違いに気づけない方 (初学者)

記事の内容

本記事は私が機械学習を学び、kaggleに投稿したことの記録です。題名には"話"とありますが、基本的には私が機械学習の概略を学ぶためのものです。したがって、初学者のためになる話にも上級者のおもちゃにもならない記事ですのでご注意ください。コードも横着してnoteのスクショです。

分析

https://github.com/Masaaki61081/scikit-learn_LinearRegression/tree/master/kaggle_house-prices/house-prices_first

不慣れでQiitaの使い方が良く分からないのでgithubのアドレスを載せておきます。

環境その他

環境
windows10
jupyternotebook
scikit-learn
コンペ
kaggle-House Prices: Advanced Regression Techniques(https://www.kaggle.com/c/house-prices-advanced-regression-techniques)

方針

精度は気にしない
使用するモデルは線形回帰
欠損値はほぼない
選択する説明変数は適当
とにかく提出できる形にもっていく（最優先）

データの確認

とにかく多いのでいくつか選択することにしました。

説明変数の選択とカテゴリ変数への変換

感覚的に築年数、改修日、場所、クラス、ゾーニングを選択しました。　
※後で気づいたがstreetは住所ではなく道路の舗装状態のことでした。

MSZoningとStreetはそのままダミー変数に変換しました。

学習

早速学習します。

決定係数

かなり評価値は低いようです。気にせずテストデータの予測を行います。

予測

テストデータも同様に処理していきます。ダミー変数に関してはどうなってしまうか不安でしたが項目が同じであったため特に処置はひつようありませんでした。

そのままcsvファイルにして提出

結果は順位4705/5274でした。サンプルデータには勝てました。

反省

初めての機械学習でしたがサンプルデータを超えられたので最低限の基準をクリアして提出まで持ってこられたことは大変良かったと率直に思いました。スコアはまずまずですが、一方で実際のデータはどうだったのでしょうか。

上記は訓練データ（青）とその予測値（赤）です。10,000~200,000ドル付近に予測が集中していることが分かります。こうして見てみるとただの直線でもそれほど精度が変わらないのではないかという程です。過小適合なのでしょうか。
(2019/11/17追記)