はじめに
- LLMのモデルサイズ(例.8B、70B)とかって、イメージ湧かなくないですか?
- 一般の方からすると。凄さとか、学習の大変さが伝わりづらい
- 「モデルのパラメータ数」と「事前学習のデータ量(トークン数)」も混同しがち
このへんを整理していきます。
パラメータ数と学習データ量
モデルのパラメータ数
- パラメータとは、機械学習モデルが学習によって調整する変数のこと
- パラメータの数が多いほど、モデルは複雑な関数を表現できる
- パラメータ数は、モデルの "表現力" と言えます
- 最新の大規模言語モデル (LLM) は、数百億から数兆のパラメータを持つものもある
例えば、1000億のパラメータを持つモデルは、1000億個の "ニューロン" を持つ人間の脳に例えることができます。
学習データ量
- 機械学習モデルは、大量のデータから規則性やパターンを学習します
- 学習に使うデータの量が多いほど、モデルはより多くのことを学習できます
- LLMの学習には、数千億から数兆トークンのテキストデータが使われます
例えば、8000億トークンのテキストデータは、約80万冊分の書籍に相当します。東京都立図書館の全蔵書の約7倍に相当する膨大な量です。
主要なモデルのパラメータ数と学習データ量
この表から、最新のLLMがいかに膨大な量のテキストデータを使って学習されているかが一目瞭然ですね。
Chinchilla則(パラメータ数の20倍の学習データ量)を満たすか、それ以上のデータ量が使われているのがわかります。
モデル名 | 会社 | パラメータ数 | 学習データ量(token) | パラメータ数:データ比率 | 学習データ量 |
---|---|---|---|---|---|
Mixtral | Mixtral AI | 1760億 | 8000億 | 約46倍 | 約80万冊分に相当 |
Command R+ | Cohere | 1040億 | 4000億 | 約40倍 | 約40万冊分に相当 |
Grok 1.5 | Grok | 3140億 | 6000億 | 約20倍 | 約60万冊に相当 |
Claude-3 OPUS | Anthropic | 2兆 | 4兆 | 約20倍 | 約400万冊分に相当 |
参考資料
本記事で載せる各モデルのパラメータ数などはいかの資料をインプットにしています。
モデルサイズなどは推定値を含みます。