0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AI #3. LLMの正体を知る!作り方・パラメータ・オープンソースの基本を完全解説

0
Posted at

LLMの正体を知る!作り方・パラメータ・オープンソースの基本を完全解説

生成AIをビジネスや開発で活用する際、「そもそもLLMの中身はどうなっているのか?」「なぜこれほど種類があるのか?」といった疑問を持つことはありませんか?

本記事では、YouTube動画「生成AIインフラ入門 Episode 02:LLMはどうやって作られるのか」の内容をベースに、LLMの基礎知識を初心者の方にもわかりやすく解説します。

動画で詳しく学びたい方はこちらをチェックしてください。


1. LLMが完成するまでの3ステップ

LLMが賢くなるプロセスは、料理に例えると非常に理解しやすくなります。大きく分けて3つのフェーズがあります。

① 事前学習(Pre-training)

インターネット上の膨大なテキストデータを読み込ませ、言語の基礎パターンを学習させます。

  • 料理で例えると: 大量の食材を仕入れ、基本的な料理の「勘」を養う段階。まだ具体的な料理は作れません。
  • 特徴: 数兆トークンの膨大なデータと、数億円〜数百億円規模の莫大なコスト(GPU)がかかります。

② ファインチューニング(Fine-tuning)

事前学習したモデルに対し、質問と回答のペアデータを与えて「対話」ができるように訓練します。

  • 料理で例えると: 勘の良いコックを、レストランの接客スタイルに合わせて特訓する段階。

③ RLHF(人間のフィードバックによる強化学習)

人間が回答の良し悪しを評価し、そのフィードバックをもとにモデルを改善します。

  • 料理で例えると: お客様の反応を見て味付けを調整し、より満足度の高い一皿を目指す段階。

2. 「パラメータ数」とは何か?

よく「パラメータ数70B(700億)」といった数字を耳にしますが、これはモデルの**「知識の容量」「脳細胞のつながりの数」**に相当します。

  • パラメータが多い: より複雑な思考や高度なタスクが可能になりますが、動かすために高性能なGPU(メモリ)が必要です。
  • パラメータが少ない: 高速に応答し、スマホなどの端末でも動作可能ですが、複雑な推論には限界があります。

最近では、質の高いデータで学習させることで、小型でも非常に賢いモデルが登場しており、「大きいほど必ず優れている」とは限らないのが現在のトレンドです。


3. なぜこんなに多くのLLMが存在するのか?

2024年以降、数百種類ものモデルが登場しています。これらは主に以下の4つの軸で差別化されています。

  1. 目的・用途: 汎用的な会話、プログラミング特化、医療・法律特化など。
  2. 言語・地域: 日本語に特化したモデルや、多言語対応モデル。
  3. ライセンス: 商用APIのみのもの、中身が公開されているオープンソース(OSS)のもの。
  4. 技術: 学習データの質や、効率的な内部構造(MoEなど)の違い。

4. 主要LLMの特徴比較

代表的なモデルには、以下のような強みがあります。

  • GPT-4 / GPT-4o (OpenAI): 最も汎用的で実績が豊富。
  • Claude 3.x / 4.x (Anthropic): 長文の理解に強く、安全性が高い。
  • Gemini 1.5 / 2.x (Google): Google検索やWorkspaceとの連携が強力。
  • Llama 3.x (Meta): 高性能なオープンソースモデルの代表格。自社環境で動かせる。

5. オープンソースLLM(OSS LLM)のメリット

GPTなどの商用APIと異なり、LlamaなどのオープンソースLLMは「モデルの重み」が公開されており、自社サーバーで動かせるのが最大の特徴です。

比較項目 商用API(GPTなど) オープンソースLLM(Llamaなど)
データの流れ 外部サーバーへ送信される 社内完結(外部に出ない)
コスト トークン量に応じた課金 インフラ(GPU)費用のみ
オフライン利用 不可 可能
カスタマイズ 制限あり 自由(ファインチューニング可)

機密データを扱う場合や、特定の業務に特化させたい場合は、オープンソースLLMの活用が有力な選択肢となります。


まとめ:どう選べばいい?

LLMを選ぶ際は、以下の3軸で考えるのが基本です。

  1. 機密データを外に出せるか?(NGならOSS)
  2. 精度か、コスト・速度か?(最高精度なら大型商用、速度なら小型)
  3. 日本語対応は十分か?

動画本編では、これらの内容を図解を交えてさらに深掘りしています。インフラエンジニアだけでなく、生成AIの全体像を把握したいビジネス職の方も、ぜひチェックしてみてください!

動画視聴はこちらから

LLMはどうやって作られるのか ― パラメータ・種類・オープンソース

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?