1
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMの仕組みをざっくり理解する

1
Posted at

はじめに

ChatGPTやClaudeなど、Large Language Model(LLM)を使ったサービスが急速に普及しています。でも「LLMって実際どういう仕組みで動いているの?」という疑問を持つ方も多いのではないでしょうか。この記事では、難しい数式を使わずにLLMの基本的な仕組みをざっくり解説します。


LLMとは?

LLM(Large Language Model)とは、大量のテキストデータを学習した大規模な言語モデルです。「次の単語を予測する」という非常にシンプルなタスクを膨大なデータで繰り返すことで、文章の理解や生成ができるようになります。


LLMの仕組み

1. トークン化:テキストを数値に変換する

まず、入力テキストを トークン と呼ばれる単位に分割します。コンピュータは文字をそのまま扱えないため、単語や単語の一部に分割し、それぞれに数値IDを割り当てます。

「今日はいい天気ですね」
→ ["今日", "は", "いい", "天気", "です", "ね"]
→ [1024, 31, 892, 3041, 12, 88]  ← 数値に変換

2. Transformer:文脈を読み取るアーキテクチャ

アーキテクチャとは、モデルの「設計図・構造」のことです。現在のLLMはほぼすべて Transformer という設計を採用しています。

Transformerの特徴は一言で言えば「文章全体を見渡して、単語どうしの関係を同時に計算できる」点です。以前主流だったRNNという設計では、文章を先頭から順番に読む必要があり、文が長くなると前の情報を忘れやすい問題がありました。Transformerはこれを解決しました。

3. Attention(注意機構):どの単語が重要かを判断する

Transformerの核心が Attention(注意機構) です。これは「今処理している単語にとって、文中の他のどの単語が重要か」を数値で表す仕組みです。

「彼女はケーキを食べた。それはとても美味しかった。」

「それ」を処理するとき、Attentionは以下のように各単語との関連度を計算します。

「それ」に対する関連度:
  ケーキ  → 0.85(高い=「それ=ケーキ」と判断)
  食べた  → 0.10
  彼女    → 0.05

このように関連度の高い単語に注目することで、文脈を正しく読み取れます。

4. パラメータと学習:予測の精度はどう決まる?

トークン化・Transformer・Attentionの処理を経て、モデルは「次に来る可能性が最も高いトークン」を確率で予測します。

入力:「明日の天気は」
予測:「晴れ」45% /「曇り」30% /「雨」20% /「ラーメン」0.1% …
→「晴れ」を出力

この予測の精度を決めるのが パラメータ(重み) です。パラメータとはモデル内部にある膨大な数値の集合で、「知識」が詰まっている場所と言えます。

パラメータは 学習(Training) によって決まります。

  1. 大量のテキスト(ウェブ・書籍・論文など)を用意する
  2. モデルが「次の単語」を予測する
  3. 正解と比較して誤差を計算する
  4. 誤差が小さくなるようパラメータを少しずつ調整する
  5. これを何兆回も繰り返す

この繰り返しにより、「自然な文章ではこの単語の次にこれが来やすい」という膨大なパターンがパラメータとして刻み込まれていきます。

5. コンテキスト(文脈):どこまで覚えていられる?

LLMにおける コンテキスト とは、モデルが参照できる「過去のやり取りや入力情報の範囲」です。会話の中で前のメッセージを踏まえた返答ができるのはコンテキストのおかげです。

ユーザー:「私はカレーが好きです」
AI:「いいですね!」
ユーザー:「その料理を自分で作るコツは?」
AI:「カレーを自分で作るコツは...」← 「その料理=カレー」と理解できている

ただしコンテキストには コンテキストウィンドウ という上限があり、これを超えた情報は「忘れて」しまいます。

モデル コンテキストウィンドウ
GPT-3.5 約4,000トークン
GPT-4 最大128,000トークン
Claude 3 最大200,000トークン

なぜ「ほぼ正確な答え」が得られるのか?

規模の拡大

学習データとパラメータ数が増えるほど、より多くの知識やパターンを保持できます。

GPT-2(2019年):15億パラメータ  → 文章は流暢だが内容がよくずれる
GPT-3(2020年):1,750億パラメータ → かなり賢いが指示に忠実でないことも
GPT-4(2023年〜):非公開(数兆規模とも)→ 複雑な推論や長文理解が大幅向上

RLHF:人間のフィードバックで品質を高める

規模を拡大するだけでは「流暢だが役に立たない・危険な回答」をしてしまうことがあります。それを解決するのが RLHF(Reinforcement Learning from Human Feedback=人間のフィードバックによる強化学習) です。

仕組みはシンプルで、人間の評価者が複数の回答に対してランキングをつけ、「人間が良いと感じる回答の特徴」をモデルに学習させます。

質問:「ダイエットの方法を教えて」
回答A:「食事制限と運動のバランスが大切です...」  → 1位
回答B:「バランスの良い食事を心がけましょう...」  → 2位
回答C:「何も食べなければ痩せます」              → 3位(不適切)

このランキングをもとに強化学習を行い、「安全・丁寧・役立つ」回答ができるよう本体モデルを調整します。ChatGPTが登場した際に「以前のGPT-3よりずっと使いやすい」と感じられた最大の理由がこのRLHFです。

残る課題:ハルシネーション

LLMは「確率的に次のトークンを予測する」という仕組み上、事実と異なる情報を自信満々に答えてしまう(ハルシネーション) という問題が今も残っています。重要な情報は必ず別途確認することをおすすめします。


まとめ

概念 一言で言うと ポイント
トークン化 テキストを数値に変換 処理の出発点
Transformer モデルの設計図 文章全体を同時に処理できる
Attention 単語間の重要度を計算 文脈の正確な理解を支える
パラメータ モデルの「知識」 学習を繰り返して最適化される
コンテキスト モデルが参照できる範囲 ウィンドウを超えると「忘れる」
RLHF 人間の評価で品質を改善 安全で役立つ回答ができるように調整
ハルシネーション もっともらしい誤情報の生成 今も残るLLMの課題

LLMは「次の単語を予測する」というシンプルな原理の繰り返しから、驚くほど高度な言語能力を実現しています。普段AIツールを使う際に、この記事の内容を少し思い出してもらえると嬉しいです。

1
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?