機械学習に関する基本的な内容をまとめてみたものです。機械学習に関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
過学習を防ぐ正則化
過学習を防ぐために用いられる正則化とは
機械学習では大量のデータを扱いますが、偏り過ぎたデータにまで対応してしまう過学習の状態に陥る事があります。
学習する期間が長過ぎたり、データが典型的データから外れている場合に過学習が起こります。
過学習によって、典型的なデータに適切な対応が出来なくなる可能性があるので、注意しなくてはなりません。
そのため、機械学習では過学習になるのを防ぐために、極端な重みのデータに対してペナルティを与える正則化が用いられます。
過学習は未知のデータに対応出来ない原因を作る
機械学習で学習モデルを構築する時は、過学習に陥る事を避けなくてはなりません。
単に大量のデータを使って学習モデルを訓練したのでは、訓練用データに対してだけ正確な予測をする事になってしまいます。
それでは訓練で正確な予測がされているように見えても、訓練以外の未知のデータでは適切な予測が出来なくなります。
L1正則化とL2正則化
機械学習で一般的に使用されるのは、L1正則化とL2正則化です。
・L1正則化 特定のデータの重みを0にする事で、不要なデータを削除する
・L2正則化 データの大きさに応じて0に近づけて、滑らかなモデルとする
データの内容を検討して適切な正則化をすると、機械学習をより有効に行う事が出来ます。