LLMの仕組みをざっくり理解する

Posted at 2026-03-03

はじめに

ChatGPTやClaudeなど、Large Language Model（LLM）を使ったサービスが急速に普及しています。でも「LLMって実際どういう仕組みで動いているの？」という疑問を持つ方も多いのではないでしょうか。この記事では、難しい数式を使わずにLLMの基本的な仕組みをざっくり解説します。

LLMとは？

LLM（Large Language Model）とは、大量のテキストデータを学習した大規模な言語モデルです。「次の単語を予測する」という非常にシンプルなタスクを膨大なデータで繰り返すことで、文章の理解や生成ができるようになります。

LLMの仕組み

1. トークン化：テキストを数値に変換する

まず、入力テキストを トークン と呼ばれる単位に分割します。コンピュータは文字をそのまま扱えないため、単語や単語の一部に分割し、それぞれに数値IDを割り当てます。

「今日はいい天気ですね」
→ ["今日", "は", "いい", "天気", "です", "ね"]
→ [1024, 31, 892, 3041, 12, 88]  ← 数値に変換

2. Transformer：文脈を読み取るアーキテクチャ

アーキテクチャとは、モデルの「設計図・構造」のことです。現在のLLMはほぼすべて Transformer という設計を採用しています。

Transformerの特徴は一言で言えば「文章全体を見渡して、単語どうしの関係を同時に計算できる」点です。以前主流だったRNNという設計では、文章を先頭から順番に読む必要があり、文が長くなると前の情報を忘れやすい問題がありました。Transformerはこれを解決しました。

3. Attention（注意機構）：どの単語が重要かを判断する

Transformerの核心が Attention（注意機構） です。これは「今処理している単語にとって、文中の他のどの単語が重要か」を数値で表す仕組みです。

「彼女はケーキを食べた。それはとても美味しかった。」

「それ」を処理するとき、Attentionは以下のように各単語との関連度を計算します。

「それ」に対する関連度：
  ケーキ  → 0.85（高い＝「それ＝ケーキ」と判断）
  食べた  → 0.10
  彼女    → 0.05

このように関連度の高い単語に注目することで、文脈を正しく読み取れます。

4. パラメータと学習：予測の精度はどう決まる？

トークン化・Transformer・Attentionの処理を経て、モデルは「次に来る可能性が最も高いトークン」を確率で予測します。

入力：「明日の天気は」
予測：「晴れ」45% ／「曇り」30% ／「雨」20% ／「ラーメン」0.1% …
→「晴れ」を出力

この予測の精度を決めるのが パラメータ（重み） です。パラメータとはモデル内部にある膨大な数値の集合で、「知識」が詰まっている場所と言えます。

パラメータは 学習（Training） によって決まります。

大量のテキスト（ウェブ・書籍・論文など）を用意する
モデルが「次の単語」を予測する
正解と比較して誤差を計算する
誤差が小さくなるようパラメータを少しずつ調整する
これを何兆回も繰り返す

この繰り返しにより、「自然な文章ではこの単語の次にこれが来やすい」という膨大なパターンがパラメータとして刻み込まれていきます。

5. コンテキスト（文脈）：どこまで覚えていられる？

LLMにおける コンテキスト とは、モデルが参照できる「過去のやり取りや入力情報の範囲」です。会話の中で前のメッセージを踏まえた返答ができるのはコンテキストのおかげです。

ユーザー：「私はカレーが好きです」
AI：「いいですね！」
ユーザー：「その料理を自分で作るコツは？」
AI：「カレーを自分で作るコツは...」← 「その料理＝カレー」と理解できている

ただしコンテキストには コンテキストウィンドウ という上限があり、これを超えた情報は「忘れて」しまいます。

モデル	コンテキストウィンドウ
GPT-3.5	約4,000トークン
GPT-4	最大128,000トークン
Claude 3	最大200,000トークン

なぜ「ほぼ正確な答え」が得られるのか？

規模の拡大

学習データとパラメータ数が増えるほど、より多くの知識やパターンを保持できます。

GPT-2（2019年）：15億パラメータ  → 文章は流暢だが内容がよくずれる
GPT-3（2020年）：1,750億パラメータ → かなり賢いが指示に忠実でないことも
GPT-4（2023年〜）：非公開（数兆規模とも）→ 複雑な推論や長文理解が大幅向上

RLHF：人間のフィードバックで品質を高める

規模を拡大するだけでは「流暢だが役に立たない・危険な回答」をしてしまうことがあります。それを解決するのが RLHF（Reinforcement Learning from Human Feedback＝人間のフィードバックによる強化学習） です。

仕組みはシンプルで、人間の評価者が複数の回答に対してランキングをつけ、「人間が良いと感じる回答の特徴」をモデルに学習させます。

質問：「ダイエットの方法を教えて」
回答A：「食事制限と運動のバランスが大切です...」  → 1位
回答B：「バランスの良い食事を心がけましょう...」  → 2位
回答C：「何も食べなければ痩せます」              → 3位（不適切）

このランキングをもとに強化学習を行い、「安全・丁寧・役立つ」回答ができるよう本体モデルを調整します。ChatGPTが登場した際に「以前のGPT-3よりずっと使いやすい」と感じられた最大の理由がこのRLHFです。

残る課題：ハルシネーション

LLMは「確率的に次のトークンを予測する」という仕組み上、事実と異なる情報を自信満々に答えてしまう（ハルシネーション） という問題が今も残っています。重要な情報は必ず別途確認することをおすすめします。

まとめ

概念	一言で言うと	ポイント
トークン化	テキストを数値に変換	処理の出発点
Transformer	モデルの設計図	文章全体を同時に処理できる
Attention	単語間の重要度を計算	文脈の正確な理解を支える
パラメータ	モデルの「知識」	学習を繰り返して最適化される
コンテキスト	モデルが参照できる範囲	ウィンドウを超えると「忘れる」
RLHF	人間の評価で品質を改善	安全で役立つ回答ができるように調整
ハルシネーション	もっともらしい誤情報の生成	今も残るLLMの課題

LLMは「次の単語を予測する」というシンプルな原理の繰り返しから、驚くほど高度な言語能力を実現しています。普段AIツールを使う際に、この記事の内容を少し思い出してもらえると嬉しいです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up