全体の流れ
1.目的の明確化
2.データの収集
3.前処理
4.モデル作成
5.モデル学習
6.モデルの予測精度確認
※精度が悪かったら前処理からやり直し
7.モデルの保存
1.目的の明確化について
上記を定めないと、追加の定義や精度100%まで実施することとなり長時間かかってしまうので注意!
2.データの収集
以下、4点を気を付けて収集を行う
①モデル構築に必要なデータは何か
②現状のデータは何があるのか
③データ内にある特徴量はどんなものなのか
④どのくらいのデータ数があるのか
前処理の流れ
①データの読込み
・データを読込際は、変数(箱)を用意して、データを入れること
・データを読込後は、データの中身を確認することは非常に重要!!
理由として、
①データがきちんと読み込めていなかった
②結合時に自身が意図したデータの形となっていなかった
③使用するデータではなかった
⑦特徴量生成
・特徴量が多すぎると過学習
(学習データに特化しすぎて、テストデータに対応できなること)になる
リスクがあるので、より関連性の高い特徴量を選択し、精度をあげる
現在ある特徴量から予測に役経ちそうな情報をデータから加工し、作り出すこと
モデル作成~精度評価
①モデルに使用するデータの確認
②モデル作成
・説明変数と目的変数のパターンを認識する箱を作成
③モデルに学習データを与える
・箱に説明変数と目的変数のデータを与えて学習させる
④精度確認
モデル作成時に気をつけること
精度を上げるために実施すること
モデルの評価一覧
予測モデル(アルゴリズム)には、それぞれ得意不得意があるので、
それぞれの目的にあわせて、評価方法を選定すること