5
1

LLMのパラメータ数、学習データ量ってなに?

Posted at

はじめに

  • LLMのモデルサイズ(例.8B、70B)とかって、イメージ湧かなくないですか?
    • 一般の方からすると。凄さとか、学習の大変さが伝わりづらい
    • 「モデルのパラメータ数」と「事前学習のデータ量(トークン数)」も混同しがち

このへんを整理していきます。

パラメータ数と学習データ量

モデルのパラメータ数

  • パラメータとは、機械学習モデルが学習によって調整する変数のこと
  • パラメータの数が多いほど、モデルは複雑な関数を表現できる
  • パラメータ数は、モデルの "表現力" と言えます
  • 最新の大規模言語モデル (LLM) は、数百億から数兆のパラメータを持つものもある

例えば、1000億のパラメータを持つモデルは、1000億個の "ニューロン" を持つ人間の脳に例えることができます。

学習データ量

  • 機械学習モデルは、大量のデータから規則性やパターンを学習します
  • 学習に使うデータの量が多いほど、モデルはより多くのことを学習できます
  • LLMの学習には、数千億から数兆トークンのテキストデータが使われます

例えば、8000億トークンのテキストデータは、約80万冊分の書籍に相当します。東京都立図書館の全蔵書の約7倍に相当する膨大な量です。

主要なモデルのパラメータ数と学習データ量

この表から、最新のLLMがいかに膨大な量のテキストデータを使って学習されているかが一目瞭然ですね。
Chinchilla則(パラメータ数の20倍の学習データ量)を満たすか、それ以上のデータ量が使われているのがわかります。

モデル名 会社 パラメータ数 学習データ量(token) パラメータ数:データ比率 学習データ量
Mixtral Mixtral AI 1760億 8000億 約46倍 約80万冊分に相当
Command R+ Cohere 1040億 4000億 約40倍 約40万冊分に相当
Grok 1.5 Grok 3140億 6000億 約20倍 約60万冊に相当
Claude-3 OPUS Anthropic 2兆 4兆 約20倍 約400万冊分に相当

参考資料

本記事で載せる各モデルのパラメータ数などはいかの資料をインプットにしています。
モデルサイズなどは推定値を含みます。

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1