パラメータチューニング(モデルの改良)
グリッドサーチ GridSearchCV
最も良い組み合わせのパラメータを調べることができる
ランダムサーチ RandomizedSearchCV
計算量が少ないが、必ずしも最適な組み合わせを見つけられるわkではない。
グリッドサーチとランダムサーチは精度と計算量のトレードオフの関係
流れ
・入出力のシステム
・学習用データの収集
・データの可視化・理解
・データ前処理
・アルゴリズム決定
・ハイパーパラメータの選択(??)
・モデルの学習
・モデルの性能評価
・チューニング(前処理〜性能評価を繰り返す)
・API化しシステムやアプリに組み込む
学習前の処理
・データの分割
.iloc[a:c,x:z] /// データの範囲を指定
学習
・モデルの選定
・モデルに学習データを取り込む。
・学習データにtestデータを用いて処理(pred)
性能評価
・from sklearn.metrics から性能評価に使うメソッドを呼び出す
・正解率や適合率や再現率(accuracy_scoreなど)
・predの予測データを目的変数データに当てて、評価する
チューニング
・ハイパーパラメータのチューニング。
・