この記事の狙い・目的
機械学習を取り入れたAIシステムの構築は、
①データ分析→ ②データセット作成(前処理)→ ③モデルの構築・適用
というプロセスで行っていきます。
このブログでは、①②③の全工程ついて解説していきます。
プログラムの実行環境
Python3
MacBook pro(端末)
PyCharm(IDE)
Jupyter Notebook(Chrome)
Google スライド(Chrome)
データ分析
Kaggleのボストンの住宅価格予測のデータセットを用いてデータ分析を行なった全手順を解説しています。
前処理(特徴量エンジニアリング)
前処理の各手順を解説しています。
クレンジングなどのデータ整備は割愛させていただきます。
モデルの構築・適用
モデルの構築、パラメータ・チューニング、アンサンブル学習までを解説しています。
まとめ
①データ分析→ ②データセット作成(前処理)→ ③モデルの構築・適用、までを通して行なってきました。
これまで2値分類問題として解くことが多かったため、今回は回帰問題で解いてみることにしました。
実際に色々な手法を試して精度検証を行って見て、やはりアルゴリズムごとに向き不向きがあり、その使い分けを今回学ぶことができました。次はまた別のデータを用いて分析から前処理、モデリングまでを行なって見たいと思います。
最後に
他の記事はこちらでまとめています。是非ご参照ください。
解析結果
実装結果:GitHub/boston_regression
データセット:Boston House Prices-Advanced Regression Techniques
参考資料