本日は機械学習の基礎の項目について。
目次
機械学習とは?
機械学習の学習アルゴリズム
精度、過剰適合、適合不足(過少適合)
ハイパーパラメータ
#機械学習とは?
簡単に言うと予測の自動化です。つまり
× 物事のメカニズムの理解(どうしてコインの表の出る確率はこうなっているのだろうか?)
〇 データからメカニズムを学び未来を予測(このコインの表の出た割合から未来は表はこれぐらい出るだろう)
と間違えます。メカニズムの理解は統計学の方々が主なお仕事です。
3つの学習スタイル
機械学習には3つの学習スタイルがあります。
教師あり学習
原因と結果のペアのデータから規則を学び、新しいデータに対して予測を行う手法、以下の2つがあります。
分類
複数クラスに分類したいとき
例:退職予測(原因には欠勤日数、給与、役職などさまざまなものが考えられます。)
回帰
連続値を予測したいとき
例:株価予測(原因には倒産件数、エンゲル係数などさまざまなものが考えられます。)
教師なし学習
データから何か規則性はないか学習するものになります。
例:製品の異常検知
強化学習
報酬の最大化をしたいとき
例:スマブラのCPU
上2つが良く使われます。
#機械学習の学習とは?
学習はこう言われています。
「プログラムが、ある種のタスクTと評価尺度Pにおいて、経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である」
( Machine Learning, Tom Mitchell, McGraw Hill, 1997.)
図にするとこうでしょうか。
#精度、過剰適合、適合不足(過少適合)
機械を学習するにあたって注意点があります。
上の図のように学習データに対しての精度を上げすぎると、今度はテストデータに対する精度が落ちてしまい、過剰適合となります。
かといって下げすぎるとテストデータ、学習データどちらに対しても精度が落ちてしまい、適合不足となります。
ざっくりいうと学習ではテストデータに対する精度の最大化が目的となります。
#ハイパーパラメータ
ハイパーパラメータとは、機械学習アルゴリズムが持つパラメータの中で人が調整する必要のあるものです。
値によってモデルの性能が変化するため適切な値を設定しないといけません。
機械学習ならリッジ回帰のα値があります。
深層学習では勾配法によって最適化できない・しないパラメータに相当します。例えば、学習率やバッチサイズ、学習イテレーション数といったようなものがハイパーパラメータとなります。
今日はここまで。