Sberbank Russian Housing Market
Can you predict realty price fluctuations in Russia’s volatile economy?
(ロシアの不安定な経済における不動産価格の変動を予測できますか?)
についてです。
Overviewの訳(Google翻訳を少し修正)
住宅費は、消費者と開発者の両方から多大な投資を要求します。 個人予算でも企業予算でも、予算の計画に関して、だれかもが必要とする最後のことは、予算のうちの1つについての不確実性です。 ロシアで最も古く最大の銀行であるSberbankは、不動産価格について予測することで顧客を支援しています。それにより賃貸人、開発者、および貸し手は、リースに署名するときや建物を購入するときに自信を持てるようになります。
ロシアでは住宅市場が比較的安定していますが、不安定な経済のため、アパートの特性に応じて価格を予測することは非常に困難です。 寝室の数や場所などの住宅の特徴間の複雑な相互作用は、価格予測を複雑にします。 不安定な経済をミックスに追加することは、Sberbankとその顧客が彼らの備品に単純な回帰モデル以上のものを必要とすることを意味します。
このコンペでは、Sberbankは不動産価格を予測するために広範囲の特徴を使用するアルゴリズムを開発することをKagglersに挑戦しています。 参加者は住宅データとマクロ経済パターンを含む豊富なデータセットに頼るでしょう。 正確な予測モデルにより、Sberbankは不確実な経済の中で顧客により確実に対応することができます。
Evaluation
「price_doc」がターゲット
- RMSLE
対数をとって誤差を2乗したもの
いまさら聞けない機械学習の評価関数
https://data.gunosy.io/entry/2016/08/05/115345
RMSLE (Root Mean Squared Logarithmic Error)
例えば、売り上げが100円の商品を10,000円と予測した場合の差が小さく評価されます。 個人の資産の額などの桁が大きくなり対数正規分布に近い分布において有用です。
DATA
トレーニングデータは2011年8月から2015年6月まで、テストセットは2015年7月から2016年5月までです。
データセットには、ロシアの経済および金融部門の全体的な状況に関する情報も含まれているため、景気循環がどうなるかを推測することなく、個々の物件の正確な価格予測を作成することに集中できます。
kernels
「simple-exploration-notebook-sberbank」
EDAを行っているkernel
・価格(price)のlogを取ると分布が正規分布に近くなる。
・価格の中央値(median)が年数につれて増加傾向。
・xgboostで特徴量の重要度(feature importance)を出すと、以下の重要度となった。
1.占有面積(バルコニー等含む)
2.占有面積(バルコニー等除く)
3.階
4.建物の高さ
5.築年数
「2.占有面積(バルコニー等除く) 」については0に近くても価格が高いことがある。
feature-engineering-validation-strategy
特徴量を追加した後で重要度順に並べている。
(関係のない特徴量は除いた方がモデルの精度が良くなることを解説してくれている。)
lgbm-lb-0-3093-0-3094
LightGBMですべての変数をトレーニングしている。
Basic Time Series Analysis & Feature Selection
・日付の文字列をstrptime()でdate型にしてxgboostのモデルにいれている。(文字列から日付、時間への変換)
・feature importanceで重要度
・欠損の多いカラムは使っていない。