モデルの過学習を防ぐための手法の1つ。数学的にはL2正則化と同義。
重みの値が大きくなりすぎるのを防ぐために、重みの大きさに比例したペナルティを損失関数 L に与える。
$$L’ = L + \frac{\lambda}{2} \sum_{i=1}{w_i^2}$$
ここでλは正則化の強さを調整するハイパーパラメータであり、Transformersライブラリに含まれるTrainingArgumentsで引数として使えるweight_decayではこの値を設定している。
- λの役割: 過学習の防止
重みが大きいと、小さな入力の変化に対しても出力が大きく変動することがある。
これはモデルがデータの微小な変動やノイズに対して敏感に反応している状態を示しており、過学習の典型的兆候である。
λを増やすことで、モデルはデータの本質的なパターンを捉えつつ、訓練データのノイズに過剰に適合することを防げる。
その結果、モデルによる予測は入力データの微小な変化に対して頑健になる。