【AI】大規模言語モデル(LLM)の基礎知識

Last updated at 2025-06-22Posted at 2025-05-10

はじめに

昨今さまざまなAI技術が話題になっており、特に大規模言語モデル(LLM)と呼ばれるものが今までのAIの常識を大きく覆しています。
おそらく最も一般で活用されているのはChatGPTだと思います。もしくは、Xで見かけるGrokや、Google製品に搭載されているGeminiなどもLLMに該当します。
機械的なやり取りが多かった従来のAIと比べ、明らかに文脈を意識した対話が成立しており、人間と何ら変わらないやり取りが行えています。
プログラミングの世界ではAIが自動的にコーディングを行い、タスクを消化してくれるまでに至っているなど、最早活用できていないことがリスクとなる時代に突入しました。
ゆえに、エンジニアにおいてはLLMの理解と活用が急務になっていると考えています。

この記事では、まず大前提の知識をつけるため、そもそも言語モデルとはなんなのか、どのような仕組みで動き、どのような種類が存在しているのかを概要レベルで解説できればと思います。

言語モデルとは？

言語モデル(LM: Language Model) とは、人間が用いるテキストや言葉のパターンを学習し、「次に来る単語や文字」を予測することで自然な文章を計算して出力できる AI 技術のことです。

たとえば、「明日の天気は」という文章があった場合、人間だと「晴れです」や「雨の予報です」といった続きが来るのが自然だとすぐに判断できますが、これまでの AI ではこの文脈の自然さを認識するのが非常に困難でした。
これを、大量のデータ(書籍・ネットニュース・SNS・動画・プログラムコードなど)を読み込むことによって、「この単語の次にはどんな単語が来やすいか」「この質問にはどんな答えが返ってくることが多いか」などのパターンを学び、以下のことを今まで以上の精度で行えるようになりました。

入力された文章の続きを予測する
質問に答える
文章を要約する
翻訳する
会話する(チャットボット)
プログラムのコーディングを行う

これらの中でも非常に多くのパラメータを持ち、膨大なデータを使って訓練された高性能な言語モデルのことを 大規模言語モデル(LLM: Large Language Model) と呼びます。

パラメータ

言語モデルにおける「パラメータ」とは、モデルが学習を通じて得た言葉の使い方や文脈のパターン、考え方のクセ を決める数値のことです。人間でいえば「経験」や「記憶」にあたるものであり、パラメータの数が多いほどモデルは高度で正確な予測を行え、より賢く自然な文章を出力できるようになります。

例えば、「今日は天気がいいから、」という文章が与えられた場合、モデルは次に続く言葉を予測する際、以下のように考えます。

「天気がいい」→「外に出るような行動」が続きやすい
「から、」→「何かをする理由が続く」という文法の流れである

といった過去の「経験」(＝学習した文章の情報)を元に、

「今日は天気がいいから、ピクニックに出かけよう」
「今日は天気がいいから、洗濯物が干せる」

など、自然な続きを予測できます。

この学習している過去の経験がパラメータであり、学習の際に何百万～何千億個ものパラメータを調整して「言葉の使い方」や「文のつながり方」を覚え、その時最も適した内容を判断し、アウトプットしています。

パラメータの数が多いほど、以下のようなメリットがあります。

知識が増える：より多くのことを学習できる
理解力が高くなる：文の意味や文脈をより正確に理解できる
自然な文章が書ける：人間っぽい会話や文章が作れるようになる

ただし、パラメータが多すぎると学習や動作に大量の計算が必要になるため、コンピュータの性能や費用などにコストが掛かります。

トークン

トークン(token)とは、文字列を機械が扱いやすい形に分割した単位です。これは単語であることもあれば、単語の一部(接頭辞や接尾辞など)や記号、空白などの場合もあります。

例（英語）:

Input: "ChatGPT is powerful!"
Tokens: ["ChatGPT", " is", " powerful", "!"]

例（日本語）:

Input: "私はプログラマーです。"
Tokens: ["私", "は", "プログラマー", "です", "。"]

LLM は固定長のベクトル(数値)で情報を処理しますが、文章は可変長なのでそのままでは扱えません。そこで、トークナイザーと呼ばれる仕組みで文章をトークンに分解し、それをベクトルに変換して処理します。

トークン数の制限

LLM は処理できるトークン数に上限があります。これは「コンテキスト長(context length)」と呼ばれます。
トークン数の制限は、「1 回のやりとりでモデルが扱える文章の長さの限界」を表します。つまり、各 LLM は設定された数値以上のトークンを一度に読み込むことはできません。
扱えるトークン数が多ければ長い文章を一度に処理でき、一貫した文脈理解が可能です。例えば、大量の会話履歴や長文の小説や論文などを解析する際、前の会話や文章が「記憶から消える」ことなく、会話や文のつながりをより深く理解して応答できるようになります。

主な LLM の制約は以下の通りです。

GPT-3.5: 約 4,096 トークン
GPT-4: 約 8,192〜32,768 トークン
Claude 3: 最大約 200,000 トークン(推定)

※1 トークン ≒ 4 文字(英語)とされ、1,000 トークン ≒ 750 語(英語)くらいのイメージです。

コンテキスト

コンテキスト(Context)とは、文脈・前後関係・背景・状況などを意味する英単語です。LLMにおいては「いま何を参照して応答すればよいか」を示す情報のことを指します。
コンテキストには大まかに以下の3つの役割があります。

1. 一貫性の維持

LLMは会話の流れや文章の主題がぶれないよう、ユーザーの入力とそれまでの会話の流れ(履歴)を「文脈」として理解し、その上で適切な回答を生成しています。
例えば、以下のような流れです。

User: 京都のおすすめ観光地は？
→ AI: 清水寺、金閣寺、伏見稲荷などがあります。

User: そこに行くベストシーズンは？
→ AI: 春や秋が特におすすめです。

2つ目の質問で"そこ"と質問文にありますが、AIは文脈をもとに"そこ"を"京都の観光地"のことだと理解します。これを文脈保持(context retention) と呼びます。

2. 指示の明示化

LLMに対し、「あなたは〇〇として振る舞ってください」「回答は箇条書きで」「コード例はTypeScriptで」といった上位指示をあらかじめ与えることで、出力内容をコントロールできます。
例えば、以下のような感じです。

Context: あなたは旅行ガイドです。回答は日本語で、箇条書き形式にしてください。
User: 京都のおすすめ観光地は？
Assistant:
・今の季節であれば紅葉が美しい清水寺がおすすめです。
・世界遺産を巡るなら金閣寺がおすすめです。
・伏見稲荷大社は千本鳥居が見どころです。

このように、回答時の前提条件としてコンテキストを与えておくことで、回答内容がコンテキストに沿った内容で返ってきます。

3. 外部知識の付与

データベースやドキュメントの抜粋、リアルタイム情報などをプロンプト内に埋め込むことで、モデルがそれを参照して回答できます。

Context: 以下のFAQを参照して答えてください。  
    Q: パスワードを忘れた場合は？  
    A: ログイン画面の「パスワードを忘れた方」リンクから再設定できます。  
User: パスワードを忘れたらどうすればいいですか？  
Assistant: ログイン画面の「パスワードを忘れた方」リンクをクリックすると、再設定用のメール送信画面が表示されますので、案内に従って手続きを進めてください。

主な LLM モデルの種類

Claude シリーズ

Anthropic 社が開発した対話型生成 AI。安全性や倫理を重視し、善悪を見極めたやり取りを実現するため「憲法 AI」と呼ばれる原則を導入しています。
現在主流なのは Claude 3 シリーズと Claude 4 シリーズです。

Claude 3 シリーズ

モデル名	特徴	用途の例
Haiku	最も小型で高速。コスト効率が良く、応答時間が短い。	チャットボット、即時レスポンスを求めるアプリ
Sonnet	バランス型モデル。高性能でコストも抑えめ。	コーディング支援、一般的な知識応答
Opus	最上位モデル。最も高精度で論理的推論や複雑なタスクに強い。	研究、データ解析、戦略的思考の必要な対話

2025 年 2 月に Claude 3.7 が公開。主にハイブリッド推論モデルとして進化し、Claude 3.5 よりも大幅なコンテキスト拡大、コーディング能力の向上などの改良が加えられています。
ハイブリッド推論モデルとは標準モード(Standard Mode)と拡張思考モード(Extended Thinking Mode)を切り替えられるモデルのこと で、拡張思考モードを使えばさらに精度の高い結果が得られるようになります。

Claude 4 シリーズ

モデル名	主な特徴	用途の例
Sonnet 4	無料プラン対応、最大 64,000 トークンの長文処理	長文チャット、記事の要約や翻訳
Opus 4	有料プラン向け、最大 32,000 トークン、高度なコーディング・分析	複雑なソフトウェア開発、データ解析

2025 年 5 月に Claude 4 が公開。主な提供要素は以下の通り。

Extended Thinking（拡張思考）
- Web 検索やコード実行など外部ツールと連携しながら、多段階の推論を実行
大容量コンテキスト対応
- Sonnet 4 は最大 64,000 トークン、Opus 4 は最大 32,000 トークン
- 長いドキュメントや議事録を丸ごと解析・要約できる
高精度推論
- 各種ベンチマークで前モデルを大きく上回る性能を発揮
- 特にコーディング支援や専門知識を要するタスクで優れた成果

Claude Code

Claude 4と同時に発表されたエージェント型コーディングツール。
ターミナル上に直接組み込まれ、コマンドや自然言語での指示により以下のような操作を実現します。

コードベースの構造や依存関係を自動でマッピング・説明
ファイルの一括編集（リファクタリングやバグ修正）
テストやリンティングの実行・結果解析
GitHub/GitLab との連携による Issue → PR 変換
Web検索を組み合わせたドキュメント取得

近年発表されたAIツールの中でも特に革新的と捉えられており、今まで以上の自動コーディング精度の向上のみならず、設計・レビュー・テストにおいても高精度かつ高速な生産性を実現できると話題になっています。

GPT シリーズ

OpenAI が開発した自然言語処理用の大規模言語モデル。GPT は Generative Pre-trained Transformer の略。
最初は GPT-1、2、3、4 とナンバリングされ、その後 2024年5月に「GPT-4o」(通称 o シリーズ)として推論能力とマルチモーダル対応(テキスト・画像・音声)を強化したモデル群が登場しました。
さらに2025年2月には、より大規模な事前学習を行った研究プレビュー版として GPT-4.5 が公開され、パターン認識や創造性が向上しています。
各モデルは性能(推論能力／創造性)、速度、扱えるコンテキスト長などが異なるため、用途に応じて使い分けることが重要です。

モデル名	特徴	コンテキストウィンドウ	最大出力トークン数	公開日
o1	初の「推論型」モデル。複雑な推論や科学・プログラミングに強いが、計算コストが高い。	128K	32K	2024年12月17日
GPT-4.5	研究プレビュー版。大規模事前学習による創造性と理解力の向上。	128K	16K	2025年2月27日
o3	高速で低コスト。数学・科学処理の大幅強化。画像思考能力の追加。	128K	32K	2025年4月16日
o4-mini	テキストと画像の処理が可能で、医療や金融などの分野での活用が期待される。	128K	非公開	2025年4月16日
o4-mini-high	o4-mini の高性能版。より高精度な応答と高速処理が可能。	128K	非公開	2025年4月16日

Gemini シリーズ

Google DeepMind が開発したマルチモーダル大規模言語モデル。LaMDA および PaLM2 の後継。
Google の製品である Google 検索や Google Workspace、Android などに利用されており、Google が保持する検索エンジンや YouTube などの膨大な情報をベースに学習しています。
長い文章の要約、複雑な質問への回答、多言語翻訳、画像認識、音声処理などが得意で、主にビジネス分野で幅広い活用が見込まれます。

Gemini 2.5 Pro
- 特徴：テキスト・画像・音声・動画のマルチモーダル対応。Google サービスとのネイティブ連携が強力。
- 用途：高度なドキュメント解析、検索連動型アシスタント、Workspace 自動化支援。
Gemini 2.5 Flash
- 特徴：超低レイテンシかつ軽量化された MoE (Mixture-of-Experts) アーキテクチャ。最大 1,000,000 トークンの長文対応。
- 用途：リアルタイムチャットボット、モバイル／IoT デバイスでのエッジ推論、インタラクティブQA。

費用面での比較

系列	利用形態	モデル／プラン	種別	単価
Claude	API	Opus 4	入力	$15／Mトークン
			プロンプト書き込み	$18.75／Mトークン
			プロンプト読み込み	$1.50／Mトークン
			出力	$75／Mトークン
		Sonnet 4	入力	$3／Mトークン
			プロンプト書き込み	$3.75／Mトークン
			プロンプト読み込み	$0.30／Mトークン
			出力	$15／Mトークン
		Haiku 3.5	入力	$0.80／Mトークン
			プロンプト書き込み	$1.00／Mトークン
			プロンプト読み込み	$0.08／Mトークン
			出力	$4／Mトークン
	Web/アプリ	Free	月額料金	$0／月
		Pro	月額料金	$20／月
		Max	月額料金	$100～／月
GPT	API	o3	入力	$2.00／Mトークン
			キャッシュ入力	$0.50／Mトークン
			出力	$8.00／Mトークン
		o4-mini	入力	$1.10／Mトークン
			キャッシュ入力	$0.275／Mトークン
			出力	$4.40／Mトークン
	ChatGPT Plus	—	月額料金	$20／月
Gemini	API(Vertex AI 2.5 Pro)	—	入力 (≤200K)	$1.25／1Mトークン
			入力 (>200K)	$2.50／1Mトークン
			出力 (≤200K)	$10／1Mトークン
			出力 (>200K)	$15／1Mトークン
	Google AI Pro	—	月額料金	$19.99／月
	Google AI Ultra	—	月額料金	$249.99／月

AI エージェント

AI エージェントとは、人間のように目標達成のために自律的に動作し、タスクを実行する AI プログラムのことです。近年の LLM の進化により、従来のルールベースなエージェントとは一線を画す高度な AI エージェントが実現可能となっています。

基本的な定義

AI エージェントは以下の特徴を持ちます。

自律性：人間の介入なしに行動を決定する
目標指向：設定されたゴールを達成するために最適な行動を選択する
知覚・行動ループ：外部環境から情報を受け取り(=知覚)、行動を選択して環境に影響を与える(=アクション)
計画能力：複雑なタスクを分解し、ステップバイステップで処理する

構成要素

LLM ベースの AI エージェントは、主に以下のコンポーネントで構成されます。

コンポーネント	概要
LLM	推論、計画、自然言語処理の中核。例：GPT、Claude、Gemini など。
メモリ	状況や過去の対話を保持して再利用する。短期・長期の 2 種類がある。
ツールアクセス	ブラウザ、計算機、ファイルシステム、コード実行環境などのツールを呼び出す。
リフレクション	自己評価やタスクのやり直し、改善などを行う機能。
エージェントループ	「観察 → 思考 → 行動 → 観察…」というサイクルを繰り返すループ構造。

活用事例

ソフトウェア開発支援：エージェントがコードを理解し、修正・生成を支援する(Cursor や Copilot Chatなど)
リサーチ支援：論文を読み、要約し、比較するタスクを自動化
自動取引ボット：マーケットを監視し、戦略的に売買を行う
顧客サポート：対話の履歴から適切な回答を選び、ツールを操作して対応
RPA(業務自動化)：人間が操作する Web UI やアプリケーションをエージェントが代行

代表的な AI エージェント型開発支援ツール

ツール名	特徴	エージェント性
GitHub Copilot	GPT-3.5／GPT-4ベースのコード補完・スニペット生成（VS Code／JetBrainsプラグイン）	低（補完中心）
Copilot Chat / Copilot for Business	プロジェクト全体のコンテキストを保持するチャットUIで、コード説明・リファクタリング支援・テスト提案まで対応	中（思考に基づくアドバイスあり）
Cursor	LLMによるコード理解・マルチファイル編集／自動テスト実行機能を備えたエージェントモード	高（計画→編集→テスト実行を自動化）
Continue (VS Code 拡張)	任意のLLMをバックエンドにしたチャット開発支援。会話形式でコード修正やコミットコメント生成が可能	中（Copilot Chat類似）
Claude Code	ターミナル上でプロジェクト全体を自動マッピングし、自然言語指示だけでコード解析・編集・テスト・PR作成まで完結	高（設計→編集→テスト→PR作成を一気通貫）

MCP(Model Context Protocol)

MCP(Model Context Protocol)とは、LLMに外部の情報(コンテキストやツール)を標準化された形式で提供するためのオープンプロトコルです。
近年のAIエージェントは、Web検索・データベース参照・メール送信などのさまざまな外部ツールと連携するケースが増えていますが、これまではそれぞれのAIごとに連携の実装がバラバラで、開発に負担が掛かっていました。
この課題を解決するために登場したのがMCPです。これにより、AIエージェントが外部ツールを呼び出すためのインターフェース設計やデータ形式が標準化されたことで、開発コストが大幅に軽減しました。
Anthropicの公式ドキュメントでは「AIアプリケーション用のUSB-Cポートのようなもの」と解説されていますが、この解説通り、さまざまなツールを一元で接続できるようにした仕組みと言えます。

MCPのアーキテクチャ

MCPは以下の3つの主要な構成要素で成り立っています。

1. アプリケーション

ユーザーとのインターフェースを持ち、AIを活用した体験を提供する部分です。

チャットUI、エージェントフレームワーク、ノーコードツールなど
MCPサーバーにコンテキストの更新を依頼し、必要な情報を取得
例：Notion AI、Slack Bot、独自AIサービス

2. MCPサーバー(Context Server)

MCPの中核であり、「LLMに渡す文脈やツール定義を生成・管理・提供する役割」を担います。
MCPサーバーが管理する主なデータは以下の通り。

ユーザープロファイル（言語、好み、過去の行動など）
コンテキスト履歴（直前の会話や状態）
セッション目標（例：「旅行計画を進める」）
利用可能なツールの情報（API、操作対象など）

特徴：

アプリケーションごとに自前で構築可能
LLMからのリクエストに応じて、必要な文脈(JSON形式など)を返す
JSON-RPCベースでやり取りされることが多い

3. LLM

Claude、GPT、Geminiなど。

MCPサーバーから受け取った文脈を元に推論を行う
MCP経由でツールを呼び出す(たとえば「カレンダーを追加」など)
会話の中でMCPとのやり取りを行うトリガー(Tool Use要請など)を発する

処理の流れ

例：MCPによるツール連携

ユーザーがアプリケーションでリクエスト
「明日10時にミーティングを作成して」
アプリケーションがMCPサーバーに問い合わせ
ユーザーのプロファイルや現在のセッション文脈を取得
MCPサーバーがLLMに文脈を提供
ユーザーの好み、前回の会話、利用可能なツールの情報を含む
LLMが文脈に基づいて処理・判断
例：「GoogleカレンダーAPIを使ってイベントを作成する」
MCP経由でツールに指示が伝達される
LLMがMCPに「ツール呼び出し」の意図を伝え、MCPが実行
結果がLLM → アプリケーション → ユーザーへ返される

言語モデルの歴史

2017 年

Transformer アーキテクチャの登場
- Google が発表した深層学習モデル
- 自己注意機構(Self-Attention)により、文脈を同時に処理でき、並列処理が可能に
- 従来の回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)や長・短期記憶(LSTM:Long short-term memory)に代わる技術で、言語モデルの基盤となる

2018 年

BERT(Bidirectional Encoder Representations from Transformers)の登場
- Google の研究者によって導入された言語モデルファミリー
- 双方向的な文脈理解により精度を大幅に向上
- 自己教師あり学習を活用し、大量のテキストデータで事前学習
- BERT の登場により、RoBERTa や ALBERT など改良型モデルが登場

2019 年

GPT-2 の登場
- OpenAI から発表された大規模言語モデルで、約 15 億パラメータを持つ
- 高精度なテキスト生成能力、質問応答・要約・翻訳タスクにも対応

2020 年

GPT-3 の登場
- OpenAI から発表された GPT-2 の後継モデルで、約 1,750 億パラメータを持つ
- 少数ショット学習(few-shot learning)を活用し、わずかな例から高精度な出力を生成
- コンテンツ生成・質問応答・翻訳・プログラムコード生成など、多岐にわたるタスクに対応
- GPT-3 の登場で商業化が進み、企業やエンジニアが利用し始める

2021 年

Codex の発表
- OpenAI が開発したプログラミングコードを書くための AI、GitHub Copilot の前身
LaMDA(Language Model for Dialogue Applications)の発表
- Google が開発した会話型 AI のための新しい大規模言語モデル

2022 年

ChatGPT の登場
- GPT-3 を基にした対話型 AI として OpenAI が発表
- ユーザーとのインタラクティブな対話が可能で、自然な会話能力を発揮
- 個別の質問やリクエストに柔軟に対応でき、ビジネスや教育機関で利用される
GPT-3.5 が公開
- GPT-3 の改良版
- より精度の高いテキスト生成が可能になり、少数ショット学習や新タスクへの適応能力が強化

2023 年

GPT-4 が公開
- ChatGPT Plus 向けに限定リリース
- 推定で数千億〜数兆パラメータを持ち、テキストと画像を組み合わせた生成が可能に
- 複雑なタスクや長文の理解、マルチモーダル対応
ChatGPT の「Custom Instructions」や「GPTs」機能を導入
- プラグイン機能、ブラウジング、Code Interpreter(後の Advanced Data Analysis)を提供
- GPTs 機能により誰でもカスタムチャットボットを作成可能に
Claude の発表
- Claude 1 が 3 月、Claude 2 が 7 月に公開
- より安全性と制御性を重視した LLM として注目される
Gemini の発表
- Google DeepMind によって開発されたマルチモーダル大規模言語モデルのファミリー
Grok の発表
- イーロン・マスクが有する xAI によって開発された AI チャットボット
- X のプレミアムプランで提供開始
Microsoft Copilot の登場
- GPT-4 を活用し、Word、Excel、Outlook、Teams などの Microsoft 365 アプリケーションに統合
- ユーザーの自然言語入力をもとに、文書の作成、データ分析、メールの要約などを支援
GitHub Copilot chat の一般提供
- Visual Studio Code および Visual Studio に統合され、開発者が自然言語でコードに関する質問や指示を行えるチャット機能を提供
Cursor のリリース
- Anysphere 社が開発した AI 搭載の統合開発環境
- Visual Studio Code をベースに、コード生成やリファクタリング支援機能を提供

2024 年

Claude 3 のリリース
- 長文処理に優れており、ドキュメント分析や法務用途で注目される
Gemini 1.5 の発表
- 1M トークンの長文コンテキストに対応
- プログラミングやドキュメント理解に強みを見せる
オープン系 LLM の台頭
- Mistral が Mixtral など軽量で高速な Mixture of Experts モデルを公開
- Grok が X の無料ユーザーに条件付きで提供開始
Devin AI の公開
- Cognition Labsが発表した世界初の完全自律型AIソフトウェアエンジニア
- Slackなどのチャットツールと連携し、自然な対話形式で指示を受け取ることができる

2025 年

Operator の公開
- OpenAI が開発したウェブ上でのタスクを自律的に実行する AI エージェント
Deep Research の公開
- OpenAI が ChatGPT Pro ユーザー向けに公開
- o3 を活用し、テキスト・画像・PDF の解析が可能
- ユーザーの指示に基づき、インターネット上での多段階の調査を自律的に行い、5〜30 分で詳細なレポートを生成
Cline の公開
- VS CodeやCursorなどで動くオープンソースのAIエージェント型拡張機能
- 従来のコード補完ツールとは異なり、開発プロセス全体を主体的に支援する
OpenAI が MCP を正式採用
- ChatGPTデスクトップアプリやAgents SDK、Responses APIへのMCPサポートを表明
- MCPサーバーを介して自前のデータソースとAIモデルをシームレスに接続可能になる
Claude 4、Claude Codeの発表
- Anthropicが5月にClaude 4を発表
- 同時に開発者向けコーディング支援ツール「Claude Code」を一般提供開始

公式サイト

Claude
https://claude.ai/

Gemini
https://gemini.google.com/

OpenAI o1
https://openai.com/index/o1-and-new-tools-for-developers/

GPT-4.5
https://openai.com/ja-JP/index/introducing-gpt-4-5/

OpenAI o3 / o4
https://openai.com/ja-JP/index/introducing-o3-and-o4-mini/

Microsoft Copilot
https://copilot.microsoft.com/

GitHub Copilot
https://docs.github.com/ja/copilot

Cursor
https://www.cursor.com/ja

Cline
https://github.com/cline/cline

Devin
https://devin.ai/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up