はじめに
本記事は2020年に公開されたスケーリング則の論文の要約です。
Scaling Laws for Neural Language Models
概要
本研究では、言語モデルの性能とモデルサイズ、データセットサイズ、学習に使用する計算量との関係を経験的に調査しました。クロスエントロピー損失は、モデルサイズ、データセットサイズ、学習に使用する計算量の各要素に対してべき乗則に従い、これらの要素を7桁以上にわたって拡大しても一貫した傾向が見られました。ネットワークの幅や深さなどの他のアーキテクチャ上の詳細は、広範な範囲内では性能にほとんど影響を与えませんでした。また、モデルサイズとデータセットサイズに基づく過学習の関係や、モデルサイズと学習速度の関係も単純な方程式で表現できることが判明しました。これらの関係性を利用することで、限られた計算リソースを最適に配分する方法を導き出すことが可能です。具体的には、非常に大きなモデルを比較的少量のデータで学習し、収束前に早期終了することが、計算効率の観点から最適であることが示されました。
用語の解説
- クロスエントロピー損失: モデルが予測した確率分布と実際の分布との間の差異を測定する指標で、値が小さいほどモデルの予測精度が高いことを示します。
- べき乗則: ある変数が他の変数に対してべき乗(指数関数的)に関係することを示す法則で、例えば、モデルサイズが増加すると損失が一定の割合で減少する関係性を指します。
- 過学習: モデルが訓練データに過度に適合し、未知のデータに対して一般化性能が低下する現象を指します。
- ネットワークの幅と深さ: ニューラルネットワークの構造における層の数(深さ)と各層のニューロンの数(幅)を指し、モデルの容量や表現力に影響を与えます。
- 計算効率: モデルの学習や推論に必要な計算資源(時間やメモリなど)を最適に使用する能力を指し、効率が高いほど少ないリソースで高性能を達成できます。
もっともよく目にする図
様々な観点で確認されたスケーリング則の図や表
まとめ
論文を参照しスケーリング則について復習しました。
スケーリング則について原典をみることで、様々な観点でスケーリング則を確認していることとその理解が深まりました。