機械学習モデリングプロセス
1. 問題設定
- どのような課題を解決するか.
- ルールベースプログラムで解ければそれで解いても良い.(解くのが良い)
- ディープラーニングのデメリットは,技術的ハードルが高いこと,テストが実施しにくいこと.
2. データ選定
- どのようなデータを使うか
3. データの前処理
- モデルに学習させられるようにデータを変換する.
- データが抜けている場合(欠損値)の処理とか
- 自然言語をフォーマットに落とし込むとか
4. 機械学習モデルの選定
- どの機械学習モデルを利用するか.
- 線形回帰・非線形回帰
- ロジスティック回帰
- SVM
- k-means
- PCA
- knn
- 深層学習
5. モデルの学習(パラメータ推定)
- パラメータの決め方.
6. モデルの評価
- ハイパーパラメータの選定.
- モデル精度を測る.
機械学習
- コンピュータプログラムを経験によって自動的に改善していく方法
- コンピュータプログラムは,タスクTを性能指標Pで測定し,その性能が経験Eによって改善される場合,タスクTおよび性能指標Pに関して経験Eから学習すると言われている.(トム・ミッチェル 1997)
- 学習用データセット(経験E)を利用してくんれんじたあとに,未知のデータについて正確に予測・分類できるアルゴリズムの能力を言う.