はじめに
ChatGPTやClaudeなど、Large Language Model(LLM)を使ったサービスが急速に普及しています。でも「LLMって実際どういう仕組みで動いているの?」という疑問を持つ方も多いのではないでしょうか。この記事では、難しい数式を使わずにLLMの基本的な仕組みをざっくり解説します。
LLMとは?
LLM(Large Language Model)とは、大量のテキストデータを学習した大規模な言語モデルです。「次の単語を予測する」という非常にシンプルなタスクを膨大なデータで繰り返すことで、文章の理解や生成ができるようになります。
LLMの仕組み
1. トークン化:テキストを数値に変換する
まず、入力テキストを トークン と呼ばれる単位に分割します。コンピュータは文字をそのまま扱えないため、単語や単語の一部に分割し、それぞれに数値IDを割り当てます。
「今日はいい天気ですね」
→ ["今日", "は", "いい", "天気", "です", "ね"]
→ [1024, 31, 892, 3041, 12, 88] ← 数値に変換
2. Transformer:文脈を読み取るアーキテクチャ
アーキテクチャとは、モデルの「設計図・構造」のことです。現在のLLMはほぼすべて Transformer という設計を採用しています。
Transformerの特徴は一言で言えば「文章全体を見渡して、単語どうしの関係を同時に計算できる」点です。以前主流だったRNNという設計では、文章を先頭から順番に読む必要があり、文が長くなると前の情報を忘れやすい問題がありました。Transformerはこれを解決しました。
3. Attention(注意機構):どの単語が重要かを判断する
Transformerの核心が Attention(注意機構) です。これは「今処理している単語にとって、文中の他のどの単語が重要か」を数値で表す仕組みです。
「彼女はケーキを食べた。それはとても美味しかった。」
「それ」を処理するとき、Attentionは以下のように各単語との関連度を計算します。
「それ」に対する関連度:
ケーキ → 0.85(高い=「それ=ケーキ」と判断)
食べた → 0.10
彼女 → 0.05
このように関連度の高い単語に注目することで、文脈を正しく読み取れます。
4. パラメータと学習:予測の精度はどう決まる?
トークン化・Transformer・Attentionの処理を経て、モデルは「次に来る可能性が最も高いトークン」を確率で予測します。
入力:「明日の天気は」
予測:「晴れ」45% /「曇り」30% /「雨」20% /「ラーメン」0.1% …
→「晴れ」を出力
この予測の精度を決めるのが パラメータ(重み) です。パラメータとはモデル内部にある膨大な数値の集合で、「知識」が詰まっている場所と言えます。
パラメータは 学習(Training) によって決まります。
- 大量のテキスト(ウェブ・書籍・論文など)を用意する
- モデルが「次の単語」を予測する
- 正解と比較して誤差を計算する
- 誤差が小さくなるようパラメータを少しずつ調整する
- これを何兆回も繰り返す
この繰り返しにより、「自然な文章ではこの単語の次にこれが来やすい」という膨大なパターンがパラメータとして刻み込まれていきます。
5. コンテキスト(文脈):どこまで覚えていられる?
LLMにおける コンテキスト とは、モデルが参照できる「過去のやり取りや入力情報の範囲」です。会話の中で前のメッセージを踏まえた返答ができるのはコンテキストのおかげです。
ユーザー:「私はカレーが好きです」
AI:「いいですね!」
ユーザー:「その料理を自分で作るコツは?」
AI:「カレーを自分で作るコツは...」← 「その料理=カレー」と理解できている
ただしコンテキストには コンテキストウィンドウ という上限があり、これを超えた情報は「忘れて」しまいます。
| モデル | コンテキストウィンドウ |
|---|---|
| GPT-3.5 | 約4,000トークン |
| GPT-4 | 最大128,000トークン |
| Claude 3 | 最大200,000トークン |
なぜ「ほぼ正確な答え」が得られるのか?
規模の拡大
学習データとパラメータ数が増えるほど、より多くの知識やパターンを保持できます。
GPT-2(2019年):15億パラメータ → 文章は流暢だが内容がよくずれる
GPT-3(2020年):1,750億パラメータ → かなり賢いが指示に忠実でないことも
GPT-4(2023年〜):非公開(数兆規模とも)→ 複雑な推論や長文理解が大幅向上
RLHF:人間のフィードバックで品質を高める
規模を拡大するだけでは「流暢だが役に立たない・危険な回答」をしてしまうことがあります。それを解決するのが RLHF(Reinforcement Learning from Human Feedback=人間のフィードバックによる強化学習) です。
仕組みはシンプルで、人間の評価者が複数の回答に対してランキングをつけ、「人間が良いと感じる回答の特徴」をモデルに学習させます。
質問:「ダイエットの方法を教えて」
回答A:「食事制限と運動のバランスが大切です...」 → 1位
回答B:「バランスの良い食事を心がけましょう...」 → 2位
回答C:「何も食べなければ痩せます」 → 3位(不適切)
このランキングをもとに強化学習を行い、「安全・丁寧・役立つ」回答ができるよう本体モデルを調整します。ChatGPTが登場した際に「以前のGPT-3よりずっと使いやすい」と感じられた最大の理由がこのRLHFです。
残る課題:ハルシネーション
LLMは「確率的に次のトークンを予測する」という仕組み上、事実と異なる情報を自信満々に答えてしまう(ハルシネーション) という問題が今も残っています。重要な情報は必ず別途確認することをおすすめします。
まとめ
| 概念 | 一言で言うと | ポイント |
|---|---|---|
| トークン化 | テキストを数値に変換 | 処理の出発点 |
| Transformer | モデルの設計図 | 文章全体を同時に処理できる |
| Attention | 単語間の重要度を計算 | 文脈の正確な理解を支える |
| パラメータ | モデルの「知識」 | 学習を繰り返して最適化される |
| コンテキスト | モデルが参照できる範囲 | ウィンドウを超えると「忘れる」 |
| RLHF | 人間の評価で品質を改善 | 安全で役立つ回答ができるように調整 |
| ハルシネーション | もっともらしい誤情報の生成 | 今も残るLLMの課題 |
LLMは「次の単語を予測する」というシンプルな原理の繰り返しから、驚くほど高度な言語能力を実現しています。普段AIツールを使う際に、この記事の内容を少し思い出してもらえると嬉しいです。