お題
有名なお題であるkaggleの「House Price」問題にみんなでチャレンジしていくことになったハンズオンの内容をメモしていく企画の第8回。解説というよりはメモのまとめだったりもしますが、どこかの誰かのためになれば幸いです。前回で準備がおわり、いざ解析段階にはいって、統計の勉強をもっとしておけばよかったと反省に反省を繰り返す状態です。
- 元々のお題:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
- 参考にした記事:https://yolo-kiyoshi.com/2018/12/17/post-1003/
本日の作業
予測モデルの構築
StandardScaler() #スケーリング
とりあえず以下の記事を読みます。そして本日は感想を書きます。
- スケール変換について:https://aizine.ai/preprocessing0614/
わかったこと:
- 特徴量の取りうる値、範囲を調整して同じ範囲に収めるよう変換してくれる。
- 例)「売上に効いてくる特徴量」で『訪問者数』『気温』とした場合、単純に『訪問者数』のほうが差分が大きく出てしまい、重要さの判定に実測に沿わない影響を及ぼす。
- スケール変換はいくつか手法がある。記事記載の内容のうち、今回使っているのはよくつかう(?)「StandardScaler変換」
Lasso回帰モデル
とりあえず以下の記事を読みます、そして本日は感想を書きます(2度め)。
- Lasso回帰モデル:https://aizine.ai/ridge-lasso-elasticnet/
- 関連ワード「線形回帰」:https://aizine.ai/glossary-liner-regression/
- 関連ワード「過学習」:https://aizine.ai/overfitting0206/
- 関連ワード「コスト関数・平均二乗誤差」:https://aizine.ai/glossary-mse/
わかったこと:
- 今回は物件情報ということもあり、説明変数も多いためLasso回帰を採用。
パイプライン構築
- とりあえず以下の記事を読みます。そして本日は感想を書きます。(3回め)*
- パイプラインについて:https://qiita.com/colako/items/b4f4159b77c0a87e978f
わかったこと:
- スケーリング、クラス生成などもろもろ流れをつくってくれる、と。(これは完全にわかったつもりになりたいやつの文章だ…)
おしまい。
本日は一切コードを書かずに読み込みをする作業になりましたが、やはり背景知っとくのは大事というか、このハンズオンをやったあとに体系的にやると、なるほどとなりそうな気がした。