1. 言語モデルとは?
言語モデル(LM: Language Model) とは、人間が用いるテキストや言葉のパターンを学習し、「次に来る単語や文字」を予測することで自然な文章を計算して出力できる AI 技術のことです。
たとえば、「明日の天気は」という文章があった場合、人間だと「晴れです」や「雨の予報です」といった続きが来るのが自然だとすぐに判断できますが、これまでの AI ではこの文脈の自然さを捉えて扱うのが困難でした。
これを、大量のデータ(書籍・ネットニュース・SNS・動画・プログラムコードなど)を読み込むことで「この単語の次にはどんな単語が来やすいか」「この質問にはどんな答えが返ってくることが多いか」などのパターンを学び、以下のようなことができるようになりました。
- 入力された文章の続きを予測する
- 質問に答える
- 文章を要約する
- 翻訳する
- 会話する(チャットボット)
- プログラムのコーディングを行う
こうした言語モデルの中でも、非常に多くのパラメータを持ち、膨大なデータを使って訓練された高性能なモデルのことを 大規模言語モデル(LLM: Large Language Model) と呼びます。
パラメータ
言語モデルにおける「パラメータ」とは、モデルが学習を通じて得た言葉の使い方や文脈のパターン、考え方のクセのこと を決める数値のことです。人間でいえば、「経験」や「記憶」にあたるものであり、パラメータの数が多いほどモデルは高度で正確な予測を行え、より賢く自然な文章を出力できるようになります。
例えば、「今日は天気がいいから、」という文章が与えられた場合、モデルは次に続く言葉を予測する際、以下のように考えます。
- 「天気がいい」→「外に出るような行動」が続きやすい
- 「から、」→「何かをする理由が続く」という文法の流れである
といった過去の「経験」(=学習した文章の情報)を元に、
- 「今日は天気がいいから、ピクニックに出かけよう」
- 「今日は天気がいいから、洗濯物が干せる」
など、自然な続きを予測できます。
この学習している過去の経験がパラメータであり、学習の際に何百万~何千億個ものパラメータを調整して「言葉の使い方」や「文のつながり方」を覚え、その時最も適した内容を判断し、アウトプットしています。
パラメータの数が多いほど、以下のようなメリットがあります。
- 知識が増える:より多くのことを学習できる
- 理解力が高くなる:文の意味や文脈をより正確に理解できる
- 自然な文章が書ける:人間っぽい会話や文章が作れるようになる
ただし、パラメータが多すぎると学習や動作に大量の計算が必要になるため、コンピュータの性能や費用などにコストが掛かります。
トークン
トークン(token)とは、文字列を機械が扱いやすい形に分割した単位です。これは単語であることもあれば、単語の一部(接頭辞や接尾辞など)や記号、空白などの場合もあります。
例(英語):
Input: "ChatGPT is powerful!"
Tokens: ["ChatGPT", " is", " powerful", "!"]
例(日本語):
Input: "私はプログラマーです。"
Tokens: ["私", "は", "プログラマー", "です", "。"]
LLM は固定長のベクトル(数値)で情報を処理しますが、文章は可変長なのでそのままでは扱えません。そこで、トークナイザーと呼ばれる仕組みで文章をトークンに分解し、それをベクトルに変換して処理します。
トークン数の制限
LLM は処理できるトークン数に上限があります。これは「コンテキスト長(context length)」と呼ばれます。
トークン数の制限は、「1 回のやりとりでモデルが扱える文章の長さの限界」を表します。つまり、各 LLM は設定された数値以上のトークンを一度に読み込むことはできません。
扱えるトークン数が多ければ長い文章を一度に処理でき、一貫した文脈理解が可能です。例えば、大量の会話履歴や長文の小説や論文などを解析する際、前の会話や文章が「記憶から消える」ことなく、会話や文のつながりをより深く理解して応答できるようになります。
主な LLM の制約は以下の通りです。
- GPT-3.5: 約 4,096 トークン
- GPT-4: 約 8,192〜32,768 トークン
- Claude 3: 最大約 200,000 トークン(推定)
※1 トークン ≒ 4 文字(英語)とされ、1,000 トークン ≒ 750 語(英語)くらいのイメージ。
2. 主な LLM モデルの種類
Claude シリーズ
Anthropic 社が開発した対話型生成 AI。安全性や倫理を重視しており、善悪を見極めたやり取りを実現するため「憲法 AI」と呼ばれる原則を導入しています。
現在主流なのは 2024 年 3 月にリリースされた「Claude 3」シリーズで、次の 3 つのモデルで構成されています。
モデル名 | 特徴 | 用途の例 |
---|---|---|
Haiku | 最も小型で高速。コスト効率が良く、応答時間が短い。 | チャットボット、即時レスポンスを求めるアプリ |
Sonnet | バランス型モデル。高性能でコストも抑えめ。 | コーディング支援、一般的な知識応答 |
Opus | 最上位モデル。最も高精度で論理的推論や複雑なタスクに強い。 | 研究、データ解析、戦略的思考の必要な対話 |
2025 年 2 月には Claude 3.7 が公開。主にハイブリッド推論モデルとして進化し、Claude 3.5 よりも大幅なコンテキスト拡大、コーディング能力の向上などの改良が加えられています。
ハイブリッド推論モデルとは、標準モード(Standard Mode)と拡張思考モード(Extended Thinking Mode)を切り替えられるモデルのこと で、拡張思考モードを使えばさらに精度の高い結果が得られるようになります。ただし、応答までの時間が長くなり、API のトークン消費も増えるため、拡張思考モードを活用するまでもない場面では通常モードを利用するなど、適切な使い分けが必要です。
GPT シリーズ
OpenAI が開発した自然言語処理用の大規模言語モデル。GPT は Generative Pre-trained Transformer の略。
当初は GPT-1、2、3 といった形でナンバリングされていましたが、2024 年末に従来の GPT モデルとは異なりAI の推論能力を強化するモデル群である「O シリーズ」が登場するようになりました。モデルが「答えをいきなり出す」のではなく「人間のように思考のステップを踏む」ことで、より正確な結果を導く思考連鎖(chain of thought)という手法を取り入れています。
現在非常に多くのモデルが提供されており、性能や速度、得意なタスクなどが異なるため、用途に応じた使い分けが重要です。
モデル名 | 特徴 | コンテキスト長 | 最大出力トークン数 | 公開日 |
---|---|---|---|---|
o1 | 初の「推論型」モデル。複雑な推論や科学・プログラミングに強いが、計算コストが高い。 | 200K | 100K | 2024年12月17日 |
GPT-4.5 | 非推論型。感情理解や創造性が向上。マルチモーダル対応で、出力精度も改善。 | 128K | 16.4K | 2025年2月27日 |
GPT-4.1 | 非推論型。コード生成や指示追従性能が大幅向上。 | 1M | 32K | 2025年4月14日 |
GPT-4.1 nano | GPT-4.1 の軽量版。高速・低コストで、モバイル向けやエッジ AI に最適。 | 1M | 32K | 2025年4月14日 |
o3 | 高速で低コスト。数学・科学処理の大幅強化。画像思考能力の追加。 | 200K | 100K | 2025年4月16日 |
o4-mini | テキストと画像の処理が可能で、医療や金融などの分野での活用が期待される。 | 128K | 非公開 | 2025年4月16日 |
o4-mini-high | o4-mini の高性能版。より高精度な応答と高速処理が可能。 | 128K | 非公開 | 2025年4月16日 |
Gemini シリーズ
Google DeepMind が開発したマルチモーダル大規模言語モデル。LaMDA および PaLM2 の後継。
Google の製品である Google 検索や Google Workspace、Android などに利用されており、Google が保持する検索エンジンや YouTube などの膨大な情報をベースに学習しています。
長い文章の要約、複雑な質問への回答、多言語翻訳、画像認識、音声処理などが得意で、主にビジネス分野で幅広い活用が見込まれます。
-
Gemini 2.5 Pro
- 特徴:マルチモーダル対応。Google サービスとの連携が強力。
- 用途:画像分析、検索連動、Google Workspace 支援。
-
Gemini 1.5 Flash
- 特徴:超高速な推論性能と長文対応(1M トークン対応可)。
- 用途:高速な情報検索、コード処理、文書分析。
3. AI エージェント
AI エージェントとは、人間のように目標達成のために自律的に動作し、タスクを実行する AI プログラムのことです。近年の LLM の進化により、従来のルールベースなエージェントとは一線を画す高度な AI エージェントが実現可能となっています。
基本的な定義
AI エージェントは以下の特徴を持ちます。
- 自律性:人間の介入なしに行動を決定する
- 目標指向:設定されたゴールを達成するために最適な行動を選択する
- 知覚・行動ループ:外部環境から情報を受け取り(=知覚)、行動を選択して環境に影響を与える(=アクション)
- 計画能力:複雑なタスクを分解し、ステップバイステップで処理する
構成要素
LLM ベースの AI エージェントは、主に以下のコンポーネントで構成されます。
コンポーネント | 概要 |
---|---|
LLM | 推論、計画、自然言語処理の中核。例:GPT、Claude、Gemini など。 |
メモリ | 状況や過去の対話を保持して再利用する。短期・長期の 2 種類がある。 |
ツールアクセス | ブラウザ、計算機、ファイルシステム、コード実行環境などのツールを呼び出す。 |
リフレクション | 自己評価やタスクのやり直し、改善などを行う機能。 |
エージェントループ | 「観察 → 思考 → 行動 → 観察…」というサイクルを繰り返すループ構造。 |
活用事例
- ソフトウェア開発支援:エージェントがコードを理解し、修正・生成を支援する(Cursor や Copilot Chatなど)
- リサーチ支援:論文を読み、要約し、比較するタスクを自動化
- 自動取引ボット:マーケットを監視し、戦略的に売買を行う
- 顧客サポート:対話の履歴から適切な回答を選び、ツールを操作して対応
- RPA(業務自動化):人間が操作する Web UI やアプリケーションをエージェントが代行
代表的な AI エージェント型開発支援ツール
ツール名 | 特徴 | エージェント性 |
---|---|---|
GitHub Copilot | GPT を使った補完/生成 | 低〜中(補完中心) |
Copilot Chat / Workspace | プロジェクト全体に基づくアドバイス・リファクタ | 中〜高(思考と行動あり) |
Cursor | コード理解、マルチファイル編集、エージェントモードあり | 高(LLM が計画・編集を実行) |
Continue (VSCode 拡張) | LLM 連携によるチャット開発支援 | 中(Copilot に類似) |
4. 言語モデルの歴史
2017 年
- Transformer アーキテクチャの登場
- Google が発表した深層学習モデル
- 自己注意機構(Self-Attention)により、文脈を同時に処理でき、並列処理が可能に
- 従来の回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)や長・短期記憶(LSTM:Long short-term memory)に代わる技術で、言語モデルの基盤となる
2018 年
- BERT(Bidirectional Encoder Representations from Transformers)の登場
- Google の研究者によって導入された言語モデルファミリー
- 双方向的な文脈理解により精度を大幅に向上
- 自己教師あり学習を活用し、大量のテキストデータで事前学習
- BERT の登場により、RoBERTa や ALBERT など改良型モデルが登場
2019 年
- GPT-2 の登場
- OpenAI から発表された大規模言語モデルで、約 15 億パラメータを持つ
- 高精度なテキスト生成能力、質問応答・要約・翻訳タスクにも対応
2020 年
- GPT-3 の登場
- OpenAI から発表された GPT-2 の後継モデルで、約 1,750 億パラメータを持つ
- 少数ショット学習(few-shot learning)を活用し、わずかな例から高精度な出力を生成
- コンテンツ生成・質問応答・翻訳・プログラムコード生成など、多岐にわたるタスクに対応
- GPT-3 の登場で商業化が進み、企業やエンジニアが利用し始める
2021 年
- Codex の発表
- OpenAI が開発したプログラミングコードを書くための AI、GitHub Copilot の前身
- LaMDA(Language Model for Dialogue Applications)の発表
- Google が開発した会話型 AI のための新しい大規模言語モデル
2022 年
- ChatGPT の登場
- GPT-3 を基にした対話型 AI として OpenAI が発表
- ユーザーとのインタラクティブな対話が可能で、自然な会話能力を発揮
- 個別の質問やリクエストに柔軟に対応でき、ビジネスや教育機関で利用される
- GPT-3.5 が公開
- GPT-3 の改良版
- より精度の高いテキスト生成が可能になり、少数ショット学習や新タスクへの適応能力が強化
2023 年
- GPT-4 が公開
- ChatGPT Plus 向けに限定リリース
- 推定で数千億〜数兆パラメータを持ち、テキストと画像を組み合わせた生成が可能に
- 複雑なタスクや長文の理解、マルチモーダル対応
- ChatGPT の「Custom Instructions」や「GPTs」機能を導入
- プラグイン機能、ブラウジング、Code Interpreter(後の Advanced Data Analysis)を提供
- GPTs 機能により誰でもカスタムチャットボットを作成可能に
- Claude の発表
- Claude 1 が 3 月、Claude 2 が 7 月に公開
- より安全性と制御性を重視した LLM として注目される
- Gemini の発表
- Google DeepMind によって開発されたマルチモーダル大規模言語モデルのファミリー
- Grok の発表
- イーロン・マスクが有する xAI によって開発された AI チャットボット
- X のプレミアムプランで提供開始
- Microsoft Copilot の登場
- GPT-4 を活用し、Word、Excel、Outlook、Teams などの Microsoft 365 アプリケーションに統合
- ユーザーの自然言語入力をもとに、文書の作成、データ分析、メールの要約などを支援
- GitHub Copilot chat の一般提供
- Visual Studio Code および Visual Studio に統合され、開発者が自然言語でコードに関する質問や指示を行えるチャット機能を提供
- Cursor のリリース
- Anysphere 社が開発した AI 搭載の統合開発環境
- Visual Studio Code をベースに、コード生成やリファクタリング支援機能を提供
2024 年
- Claude 3 のリリース
- 長文処理に優れており、ドキュメント分析や法務用途で注目される
- Gemini 1.5 の発表
- 1M トークンの長文コンテキストに対応
- プログラミングやドキュメント理解に強みを見せる
- オープン系 LLM の台頭
- Mistral が Mixtral など軽量で高速な Mixture of Experts モデルを公開
- Grok が X の無料ユーザーに条件付きで提供開始
- Devin AI の公開
- Cognition Labsが発表した世界初の完全自律型AIソフトウェアエンジニア
- Slackなどのチャットツールと連携し、自然な対話形式で指示を受け取ることができる
2025 年
- Operator の公開
- OpenAI が開発したウェブ上でのタスクを自律的に実行する AI エージェント
- Deep Research の公開
- OpenAI が ChatGPT Pro ユーザー向けに公開
- o3 を活用し、テキスト・画像・PDF の解析が可能
- ユーザーの指示に基づき、インターネット上での多段階の調査を自律的に行い、5〜30 分で詳細なレポートを生成
- Cline の公開
- VS CodeやCursorなどで動くオープンソースのAIエージェント型拡張機能
- 従来のコード補完ツールとは異なり、開発プロセス全体を主体的に支援する
5.公式サイト
Claude
https://claude.ai/
Gemini
https://gemini.google.com/
OpenAI o1
https://openai.com/index/o1-and-new-tools-for-developers/
GPT-4.5
https://openai.com/ja-JP/index/introducing-gpt-4-5/
GPT-4.1
https://openai.com/index/gpt-4-1/
OpenAI o3 / o4
https://openai.com/ja-JP/index/introducing-o3-and-o4-mini/
Microsoft Copilot
https://copilot.microsoft.com/
GitHub Copilot
https://docs.github.com/ja/copilot
Cursor
https://www.cursor.com/ja
Cline
https://github.com/cline/cline
Devin AI
https://devin.ai/