LLMの正体を知る!作り方・パラメータ・オープンソースの基本を完全解説
生成AIをビジネスや開発で活用する際、「そもそもLLMの中身はどうなっているのか?」「なぜこれほど種類があるのか?」といった疑問を持つことはありませんか?
本記事では、YouTube動画「生成AIインフラ入門 Episode 02:LLMはどうやって作られるのか」の内容をベースに、LLMの基礎知識を初心者の方にもわかりやすく解説します。
動画で詳しく学びたい方はこちらをチェックしてください。
1. LLMが完成するまでの3ステップ
LLMが賢くなるプロセスは、料理に例えると非常に理解しやすくなります。大きく分けて3つのフェーズがあります。
① 事前学習(Pre-training)
インターネット上の膨大なテキストデータを読み込ませ、言語の基礎パターンを学習させます。
- 料理で例えると: 大量の食材を仕入れ、基本的な料理の「勘」を養う段階。まだ具体的な料理は作れません。
- 特徴: 数兆トークンの膨大なデータと、数億円〜数百億円規模の莫大なコスト(GPU)がかかります。
② ファインチューニング(Fine-tuning)
事前学習したモデルに対し、質問と回答のペアデータを与えて「対話」ができるように訓練します。
- 料理で例えると: 勘の良いコックを、レストランの接客スタイルに合わせて特訓する段階。
③ RLHF(人間のフィードバックによる強化学習)
人間が回答の良し悪しを評価し、そのフィードバックをもとにモデルを改善します。
- 料理で例えると: お客様の反応を見て味付けを調整し、より満足度の高い一皿を目指す段階。
2. 「パラメータ数」とは何か?
よく「パラメータ数70B(700億)」といった数字を耳にしますが、これはモデルの**「知識の容量」や「脳細胞のつながりの数」**に相当します。
- パラメータが多い: より複雑な思考や高度なタスクが可能になりますが、動かすために高性能なGPU(メモリ)が必要です。
- パラメータが少ない: 高速に応答し、スマホなどの端末でも動作可能ですが、複雑な推論には限界があります。
最近では、質の高いデータで学習させることで、小型でも非常に賢いモデルが登場しており、「大きいほど必ず優れている」とは限らないのが現在のトレンドです。
3. なぜこんなに多くのLLMが存在するのか?
2024年以降、数百種類ものモデルが登場しています。これらは主に以下の4つの軸で差別化されています。
- 目的・用途: 汎用的な会話、プログラミング特化、医療・法律特化など。
- 言語・地域: 日本語に特化したモデルや、多言語対応モデル。
- ライセンス: 商用APIのみのもの、中身が公開されているオープンソース(OSS)のもの。
- 技術: 学習データの質や、効率的な内部構造(MoEなど)の違い。
4. 主要LLMの特徴比較
代表的なモデルには、以下のような強みがあります。
- GPT-4 / GPT-4o (OpenAI): 最も汎用的で実績が豊富。
- Claude 3.x / 4.x (Anthropic): 長文の理解に強く、安全性が高い。
- Gemini 1.5 / 2.x (Google): Google検索やWorkspaceとの連携が強力。
- Llama 3.x (Meta): 高性能なオープンソースモデルの代表格。自社環境で動かせる。
5. オープンソースLLM(OSS LLM)のメリット
GPTなどの商用APIと異なり、LlamaなどのオープンソースLLMは「モデルの重み」が公開されており、自社サーバーで動かせるのが最大の特徴です。
| 比較項目 | 商用API(GPTなど) | オープンソースLLM(Llamaなど) |
|---|---|---|
| データの流れ | 外部サーバーへ送信される | 社内完結(外部に出ない) |
| コスト | トークン量に応じた課金 | インフラ(GPU)費用のみ |
| オフライン利用 | 不可 | 可能 |
| カスタマイズ | 制限あり | 自由(ファインチューニング可) |
機密データを扱う場合や、特定の業務に特化させたい場合は、オープンソースLLMの活用が有力な選択肢となります。
まとめ:どう選べばいい?
LLMを選ぶ際は、以下の3軸で考えるのが基本です。
- 機密データを外に出せるか?(NGならOSS)
- 精度か、コスト・速度か?(最高精度なら大型商用、速度なら小型)
- 日本語対応は十分か?
動画本編では、これらの内容を図解を交えてさらに深掘りしています。インフラエンジニアだけでなく、生成AIの全体像を把握したいビジネス職の方も、ぜひチェックしてみてください!
動画視聴はこちらから
LLMはどうやって作られるのか ― パラメータ・種類・オープンソース