概要
このコンペティションは無期限に実施され、住宅の販売価格を予測することが求められます。さらに、特徴エンジニアリングやランダムフォレスト(RF)、勾配ブースティングなどの技術を練習することができます。過去にPythonやRの基礎を学び、さらにスキルを伸ばしたいデータサイエンスの学生にとって、非常に適したコンペティションとなります。
具体的な解析のNotebook Bookについてはこちらで扱っています。
コンペティションの説明
住宅の価格交渉には、寝室の数や庭の美しさだけでなく、地元の鉄道の距離や地下室の天井の高さなど、さまざまな要因が影響します。このデータセットには、アイオワ州エイムズの住宅に関する79の説明変数が含まれており、それらを基に「住宅の最終価格」を予測することが求められます。
練習できるスキル
創意工夫する特徴エンジニアリング
ランダムフォレストや勾配ブースティングなどの高度な回帰手法
評価方法
目標
各住宅の販売価格を予測することです。テストセットの各 Id に対して、 SalePrice 変数の値を予測します。
評価指標
提出物は、Root-Mean-Squared-Error (RMSE) に基づいて評価されます。RMSEは予測値の対数と実際の販売価格の対数の差を取ります。これにより、安価な住宅と高価な住宅の予測誤差が同等に評価されます。
提出形式
提出するファイルは以下の形式でなければなりません。
Id,SalePrice
1461,169000.1
1462,187724.1233
1463,175221
サンプル提出ファイル(sample_submission.csv)は、データページからダウンロードできます。
使用するテクニック
主な回帰技術
ランダムフォレストや勾配ブースティングなど、複数のツリーベースのアルゴリズムを活用します。
LASSO回帰(ラッソ回帰)やリッジ回帰といった正則化手法を使用し、多重共線性(※)を避けることが推奨されています。
※ 重回帰分析において、2つ以上の説明変数が高い線形関係にある状況のこと
そもそもGetting Started コンペティションとは?
Kaggleの初心者向けコンペティションです。機械学習の基礎を学んだばかりの方や、MOOCを修了した方が次のステップに進むために最適な環境を提供します。
最後に~
このコンペティションは、住宅価格を予測するために高度な回帰技術や特徴エンジニアリングを学び、実践する絶好の機会です。データサイエンスのスキルをさらに向上させたい方におすすめの競技となっています。