はじめに
AIを使いこなすために、まず最初に理解すべきことがあります。それは「AIが実際に何をしているのか」という根本的な仕組みです。
多くの人がプロンプトのテクニックから学ぼうとしますが、道具の原理を知らなければ応用はできません。ハンマーがなぜ釘を打てるのかを知らない人は、ハンマーで他に何ができるかを想像できないのと同じです。
1. LLMとは何か
LLMは「Large Language Model(大規模言語モデル)」の略称です。膨大な量のテキストデータを学習し、与えられたテキストの後に来る最も適切な次の単語(正確にはトークン)を予測するモデルです。
核心を一文で表すとこうなります。
LLMは、非常に精巧な「次の単語予測マシン」である。
「今日の天気は」の次に来る単語として「良い」「悪い」「曇り」などの候補の中から、確率的に最も適切なものを選びます。このプロセスを数千回、数万回繰り返すことで、一つの文章、段落、文章全体が生成されます。
2. なぜ「予測」なのにこれほど賢いのか
単純な次の単語予測が、どうして複雑な推論、翻訳、コード作成まで可能なのか。不思議に思うかもしれません。
その理由は、学習データの規模とモデルの規模にあります。
数兆個のトークン(インターネット上のテキスト、書籍、論文、コードなど)を学習する過程で、モデルは単純な単語の並びではなく、言語の構造、論理的パターン、世界に関する知識を内部的に形成します。
「次の単語を正確に予測するためには」文脈を理解する必要があり、文脈を理解するためには世界の関係性を把握する必要があるからです。
3. 「トークン」という処理単位
AIは文字単位ではなく、トークン単位でテキストを処理します。トークンとは、単語、単語の一部、または文字のことです。
例:
- 英語:「unhappiness」→「un」+「happiness」(2トークン)
- 日本語:「こんにちは」→ 言語によって2〜5トークンに分割される場合がある
- 日本語・韓国語は英語よりも多くのトークンを消費する傾向がある
これが重要な理由は、AIの処理能力(コンテキストウィンドウ)とコストがすべてトークン単位で計算されるからです。同じ内容でも、日本語で書くと英語より多くのトークンを使うことになります。
4. 「確率的出力」が意味すること
LLMの出力は確定的ではなく、確率的です。これは非常に重要な特性です。
同じ質問をしても、毎回少しずつ異なる回答が返ってくることがあります。これはバグではなく、設計通りの動作です。次の単語の候補の中から確率分布に従って選択するためです。
この特性から生まれる重要な現象が3つあります。
ハルシネーション(幻覚)
AIが事実ではない内容を自信を持って述べる現象です。AIは「わかりません」と答えるよりも「もっともらしい回答を生成すること」に最適化されているため発生します。
存在しない論文タイトルを作り出したり、誤った数値を確信を持って提示したりするのが代表的な例です。
一貫性の欠如
同じ質問に対して異なる回答をしたり、長い会話の中で前後の辻褄が合わなくなることがあります。
自信と正確性の不一致
AIの回答のトーンは確信に満ちていますが、それが正確性を保証するものではありません。AIが自信を持って話しているからといって、その内容が正しいとは限りません。
5. 「学習」と「推論」は別のプロセス
混同しやすいポイントです。LLMには2つの段階があります。
学習(Training)
膨大なデータでモデルのパラメータを調整するプロセスです。これはすでに完了しています。ユーザーが会話したからといって、モデルが新たに学習するわけではありません。
推論(Inference)
学習が終わったモデルに入力を与え、出力を受け取るプロセスです。私たちがAIと会話する時に起きていることがこれです。
つまり、会話中にAIが新しいことを「学んでいる」わけではありません。 すでに学習された知識とパターンを基に、現在の会話内容(コンテキスト)を参考にして回答を生成しているのです。
6. この原理を最初に理解すべき理由
LLMの仕組みを理解すると、以下の判断ができるようになります。
検証する習慣が身につく ― AIの回答は間違う可能性があるという前提を持てるようになります。出力を鵜呑みにせず、重要な内容は必ず確認するようになります。
「知っている」と「生成している」の違いを区別できる ― AIが自信を持って回答していても、それは「知っている」のではなく「もっともらしいテキストを生成している」だけかもしれません。
プロンプトの表現で結果が変わる理由を理解できる ― 次の単語の予測は入力されたテキストに大きく依存するため、聞き方一つで出力が大きく変わります。
AIに任せてよい仕事と任せてはいけない仕事の境界を判断できる ― 確率的な出力である以上、100%の正確性が求められる作業には向いていないことがわかります。
まとめ
| ポイント | 内容 |
|---|---|
| LLMの本質 | 非常に精巧な「次の単語予測マシン」 |
| 処理単位 | 文字ではなくトークン |
| 出力の性質 | 確定的ではなく確率的 |
| ハルシネーション | 「知らない」より「でっち上げる」を選ぶ傾向 |
| 学習と推論 | 会話中に新しく学習しているわけではない |
| 最も重要なこと | AIの出力は必ず検証する習慣を持つこと |
次回:【AI活用講座 Phase 1-2】AIの能力の境界線 ― できることとできないこと
このシリーズは、AI活用を本格的に学びたい方のための体系的な講座です。Phase 1からPhase 5まで、基礎から実務・自動化まで段階的に学んでいきます。
参考資料
-
Wikipedia「Large language model」 — LLMの定義・歴史・技術的背景の包括的な解説
-
IBM「What Are Large Language Models (LLMs)?」 — LLMの仕組み(トランスフォーマー、トークン、次単語予測)の解説
-
AWS「What is LLM? - Large Language Models Explained」 — LLMの構造、エンコーダー/デコーダー、単語埋め込みの技術解説
-
Anthropic「Mapping the Mind of a Large Language Model」 — Anthropic社によるLLM内部構造の解釈可能性研究
-
Anthropic「On the Biology of a Large Language Model」 — Claude 3.5 Haikuを対象とした内部メカニズムの分析研究
-
Anthropic「Prompt Engineering Overview」 — Claude公式プロンプトエンジニアリングガイド
-
Anthropic「Prompting Best Practices」 — Claude最新モデル向けプロンプト設計のベストプラクティス
-
Sebastian Raschka著「Build a Large Language Model (From Scratch)」 — LLMの仕組みをコードレベルで理解するための書籍・リポジトリ
-
Google Developers「Introduction to Large Language Models」 — トークン、Transformer、セルフアテンション等の基礎概念コース
-
Anthropic「Claude Models Overview」 — Claudeモデルファミリーの公式ドキュメント