学習曲線(learning curve)
学習曲線は、機械学習モデルの学習の進捗を可視化するために使用されるグラフである。
学習曲線は、モデルの性能(誤差または精度)とトレーニングデータのサイズの関係を示す。
通常、学習曲線は以下のように記述する。
横軸:訓練のエポック数、イテレーション数等
縦軸:モデルの性能(誤差または精度)
学習曲線をプロットするためには、異なるトレーニングデータのサイズでモデルをトレーニングし、その結果を記録する必要がある。
学習曲線を解釈するときには、以下のポイントに注意することが重要です:
-
トレーニングエラー(または誤差):トレーニングデータに対するモデルの性能を示します。トレーニングエラーが低いほど、モデルはトレーニングデータをより正確に予測できるようになります。
-
テストエラー(または誤差):テストデータに対するモデルの性能を示します。テストエラーが低いほど、モデルは未知のデータに対しても正確に予測できるようになります。学習曲線では、トレーニングデータとテストデータのエラーをプロットすることが一般的です。
学習曲線は、次のような情報を提供します:
-
過剰適合(オーバーフィッティング)または適合不足(アンダーフィッティング)の識別:トレーニングエラーとテストエラーの差を見ることで、モデルが過剰適合または適合不足の状態にあるかを判断することができます。過剰適合では、トレーニングデータには非常によく適合しているが、テストデータでは性能が低下します。適合不足では、トレーニングデータとテストデータの両方で性能が低下します。
-
モデルの収束