はじめに
本記事は、Claude・OpenAI・GeminiのDeepResearchを10回以上実行し、その結果を統合してまとめたものである。
各社のDeepResearchが返してきた情報を突き合わせ、矛盾点を精査し、信頼性の高いデータのみを抽出した。完全に正確である保証はないが、筆者の実務における体感と一致していたため、投稿した。
モデル選びの指針程度の役には立つと思う。(実際に使う場合は自己判断、及び、最新情報を要確認)
筆者のLLM利用状況
- Gemini / Claude / OpenAI: 全て課金済み
- Gemini / OpenAI: APIでもヘビーに使用中
- OSSモデル: キャッチアップのための動作確認と、個人サービスで一部利用
この程度には日常的にLLMを触っている人間の「体感」である、という前提で読んでいただければと思う。
筆者の体感(前置き)
様々なプロジェクトを通じて、文章の要約・翻訳・日本語力・綺麗な文章構成といった観点では、Claudeが優れていると感じてきた。本調査の結果は、まさにその体感と一致していた。
また、Geminiの長文処理能力やGPTのファクトチェック・推論の堅牢さについても、筆者の実務での印象と符合している。
結論から言えば、2026年のLLM選定は「どれが最強か」ではなく「何に使うか」で決まる時代に突入していた。(ちょっと言い過ぎ)
1. エグゼクティブサマリ
本調査は、2026年2月時点において市場を牽引する26種類の主要な大規模言語モデル(LLM)を対象とし、公式ドキュメント、論文、および第三者機関による公開評価データに基づき実施された。
調査の結果、モデル選択の基準は単なる「知能の高さ」から「特定のワークフローへのアーキテクチャ的適合性」へと決定的に移行していることが判明した。
用途別トップ3モデルの選定と根拠
| 用途 | 第1位 | 第2位 | 第3位 |
|---|---|---|---|
| ビジネス文書要約・翻訳 | claude-sonnet-4-5-20250929 | command-r-plus | gpt-5-mini |
| リサーチ・分析レポート | claude-opus-4-5-20251101 | gemini-3-pro-preview | gpt-5 |
| ファクトチェック | gpt-5 | claude-opus-4-5-20251101 | gemini-3-pro-preview |
| Deep Research (大量文書統合) | gemini-3-pro-preview | moonshotai/Kimi-K2.5 | zai-org/GLM-4.7 |
| チャット・即応用途 | gemini-3-flash-preview | gpt-5-mini | grok-4-fast-non-reasoning |
選定理由と前提条件
ビジネス文書要約・翻訳
- claude-sonnet-4-5-20250929: 実務開発者から「最良のコーディング・ビジネスモデル」と評されており、先行モデルと比較して2〜3倍の応答速度を維持しつつ、SWE-bench Verifiedで77.2%の解決率を達成している
- command-r-plus: エンタープライズRAGに特化しており、10言語のネイティブな理解と正確な引用(Grounding)能力に強みがある
リサーチ・分析レポート
- claude-opus-4-5-20251101: 努力パラメータ(effort parameter)により、複雑なリサーチタスクにおいてトークン消費を抑えつつ精度を最大化できる。ARC-AGI-2テストにおいて37.6%を記録した
- gemini-3-pro-preview: 100万トークンの入力が可能であり、思考署名(thought signatures)によって推論の一貫性を担保している
ファクトチェック
- gpt-5: 思考モード(Thinking Mode)とブラウジングの併用により、ハルシネーション率を従来の1%以下に抑え、factual errorsを80%削減したと報告されている
Deep Research
- gemini-3-pro-preview: 100万トークン窓により、大量の一次情報を一括処理する上で他を圧倒している
- moonshotai/Kimi-K2.5: Agent Swarm技術により最大100個のサブエージェントを並列駆動し、数千のツール呼び出しを統合管理することが可能である
チャット・即応用途
- gemini-3-flash-preview: 前世代のProモデルを凌駕する性能をFlash級の低レイテンシで提供しており、出力速度は毎秒218トークンに達する
2. 総合比較表:モデル別主要仕様
調査対象の全26モデルについて、一次情報に基づく詳細スペックをまとめた。不明な項目は Unknown と表記している。
A. DeepInfra経由およびオープンウェイトモデル
| model_id | 提供形態 | context length | input上限 | output上限 | 推論モード | 1M input ($) | 1M output ($) |
|---|---|---|---|---|---|---|---|
| moonshotai/Kimi-K2.5 | OSS/API | 256K | 256K | Unknown | 有 (Thinking) | 0.60 | 3.00 |
| zai-org/GLM-4.7 | OSS/API | 200K | 200K | 128K | 有 (Preserved) | 0.60 | 2.20 |
| zai-org/GLM-4.7-Flash | OSS/API | 200K | 200K | 128K | 有 (MLA+MoE) | 0.00 (Free) | 0.00 (Free) |
| Qwen/Qwen3-30B-A3B | OSS | 256K | 256K | Unknown | 有 (Thinking) | 0.23 | 2.39 |
| Qwen/Qwen3-32B | OSS | 40K | 40K | Unknown | 無 | 0.08 | 0.29 |
| Qwen/Qwen3-Next-80B-A3B-Instruct | OSS | 262K | 262K | 262K | 無 (Instruct) | 0.15 | 1.20 |
| meta-llama/Llama-4-Scout-17B-16E-Instruct | OSS | 327K | 1M (API) | 8K | 無 | 0.18 | 0.59 |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | OSS | 524K | 512K | 4K | 無 | 0.27 | 0.85 |
| MiniMaxAI/MiniMax-M2.1 | OSS/API | 196K | 1M | 8K | 有 (Reasoning) | 0.28 | 1.20 |
| deepseek-ai/DeepSeek-V3.2 | OSS/API | 128K | 128K | 64K | 有 (Thinking) | 0.26 | 0.38 |
| deepseek-ai/DeepSeek-R1-0528-Turbo | OSS/API | 32K | 32K | 32K | 有 (Thinking) | 1.00 | 3.00 |
| openai/gpt-oss-120b | OSS | 128K | 131K | 131K | 有 (Thinking) | 0.15 | 0.60 |
| mistralai/Mistral-Small-3.2-24B-Instruct-2506 | OSS | 128K | 128K | Unknown | 無 | 0.075 | 0.20 |
| nvidia/Nemotron-3-Nano-30B-A3B | OSS | 131K | 128K | 128K | 有 (Configurable) | 0.80 | 2.40 |
B. 公式API提供モデル
| model_id | 提供元 | context length | input上限 | output上限 | 制御パラメータ | 1M input ($) | 1M output ($) |
|---|---|---|---|---|---|---|---|
| gpt-5 | OpenAI | 400K | 272K | 128K | reasoning_effort | 1.25 | 10.00 |
| gpt-5-mini | OpenAI | 400K | 272K | 128K | reasoning_effort | 0.25 | 2.00 |
| claude-sonnet-4-5-20250929 | Anthropic | 200K | 200K / 1M (beta) | 64K | extended thinking | 3.00 | 15.00 |
| claude-opus-4-5-20251101 | Anthropic | 200K | 200K | 64K | effort (Low/Med/High) | 5.00 | 25.00 |
| gemini-3-pro-preview | 1M | 1M | 64K | thinking_level | 2.00 (<200K) | 12.00 (<200K) | |
| gemini-3-flash-preview | 1M | 1M | 64K | thinking_level | 0.50 | 3.00 | |
| grok-4x | xAI | 256K | 256K | 256K | reasoning only | 3.00 | 15.00 |
| grok-4-fast-reasoning | xAI | 2M | 2M | 2M | Live Search | 0.20 | 0.50 |
| grok-4-fast-non-reasoning | xAI | 2M | 2M | 2M | Live Search | 0.20 | 0.50 |
| grok-code-fast-1 | xAI | 256K | 256K | 256K | Agentic coding | 0.20 | 1.50 |
| command-r | Cohere | 128K | 128K | 4K | Grounding | Unknown | Unknown |
| command-r-plus | Cohere | 128K | 128K | 4K | Citations | 2.50 | 10.00 |
| mistral-large-2512+1 | Mistral | 256K | 256K | Unknown | Open-weight | 0.50 | 1.50 |
3. 評価軸ごとの詳細分析
(1) 長文処理能力(量 × 質)
2026年における長文処理能力の定義は、単に「どれだけのデータを読み込めるか(量)」から「読み込んだデータをどれだけ論理的に破綻させずに出力できるか(質)」へと進化した。
量的長文処理能力(Capacity)
- meta-llama/Llama-4-Scout-17B-16E-Instruct: 設計上の上限は1,000万トークンである。ブロック単位のスパースアテンションを採用し、メモリ使用量を78%削減している
- grok-4-fastシリーズ: 200万トークンを提供している。法的文書やレポジトリ全体の要約において「単一コールでの処理」という経済的優位性を確立した
- gemini-3シリーズ: 標準で100万トークンを維持している。2,048トークン以上から利用可能なコンテキストキャッシュ機能により、繰り返し読み込みのコストを大幅に削減できる
質的長文処理能力(Integrity)
| アプローチ | モデル | 説明 |
|---|---|---|
| Preserved / Interleaved Thinking | zai-org/GLM-4.7 | マルチターン対話において先行するターンでの推論プロセスをコンテキスト内に保持し、後段の回答との矛盾を物理的に防ぐ。ツール呼び出しの前後に推論を挟む「Interleaved Thinking」により、複雑な指示への遵守精度を高めている |
| Context Management Tool | claude-opus-4-5-20251101 | 標準の200Kトークン窓とは別に、ファイルシステムのように機能する外部メモリツール(Beta)を持つ。エージェントはセッションをまたいで情報を view, create, rename, delete できる |
| Compaction Technique | gpt-5.1 | 会話履歴が上限に達する前に、過去のコンテキストを自動的に「コンパクション(要約圧縮)」する。実質的に数百万トークン相当のやり取りを矛盾なく継続することが可能である |
| Thought Signatures | gemini-3-pro-preview | APIレスポンスに推論過程の暗号化署名を付与する。次のリクエストでこの署名を返却することを義務付けており、モデルは自分の過去の思考を厳密に踏襲し、結論のブレを防止する |
(2) 要約品質
| 観点 | モデル | 特徴 |
|---|---|---|
| 結論先出しと構造化 | claude-sonnet-4-5-20250929 | ビジネス文書における「論点・根拠・結論」の抽出能力に長けている。日本語での構造化出力において不自然な繋ぎが極めて少ない |
| 分析から再構成への耐性 | claude-opus-4-5-20251101 | 複数の異なる論点を持つ文書を読み解き、それらを統合して新たな洞察を生成する能力において最高水準の評価を得ている |
| 技術・法的文書の正確性 | command-r-plus | 引用箇所を明示する「Grounding spans」の精度が高い。専門文書の処理に最適化されている |
(3) ハルシネーション耐性
| アプローチ | モデル | 特徴 |
|---|---|---|
| 不明時の自己申告 | gpt-5.2 (Thinking mode) | ブラウジングツールと連携した際にハルシネーション率1%未満を達成した |
| 思考制御による検証 | claude-opus-4-5-20251101 | effort parameter により内部検証を強制する。High effort設定時には論理的誤謬が大幅に減少する |
| 構造化出力の整合性 | gemini-3-pro-preview | Grounding with Google Search機能において、検索結果と出力の矛盾をチェックする専用の検証レイヤーを備えている |
(4) 日本語力
| 観点 | モデル | 特徴 |
|---|---|---|
| 日本語推論ランキング | Artificial Analysis (2026/01/28) | 第1位: gemini-3-pro-preview (93)、同率1位: claude-opus-4-5-20251101 (93) |
| 言語の自然さ | claude-sonnet-4-5-20250929 | 日本独自のビジネス表現やニュアンスの保持において、「書き手の魂を感じさせる」と評されるほど人間らしい表現が可能である |
| アジア圏最適化 | zai-org/GLM-4.7, Qwen3-235B-A22B | 中国語と日本語のバイリンガルタスクや、漢字の微細なニュアンスを扱う業務において、米国産モデルを上回る効率性を示す場合がある |
(5) コスト・運用性
- API価格: xAI の grok-4-fast シリーズは 1Mトークンあたり input $0.20 / output $0.50 である。フラグシップモデルの1/10〜1/20の価格設定となっている
- キャッシュ割引: OpenAI と Anthropic はプロンプトキャッシュの割引率を最大90%に設定している
- OSS運用: Kimi-K2.5 や Llama-4-Maverick は 600GB〜1TB の VRAM を要求する。GLM-4.7-Flash や Nemotron-3-Nano は 24GB VRAM (RTX 3090/4090) 1枚で動作可能である
4. 総合性能(用途別適合性)
ビジネス文書要約・翻訳
- 向き: claude-sonnet-4-5-20250929, command-r-plus, gpt-5-mini
- 不向き: deepseek-ai/DeepSeek-R1-0528-Turbo(推論過程の出力により要約としては冗長になりすぎる傾向がある)
- 条件付き: grok-4-fast-non-reasoning(要約の正確性を期すために Live Search での裏取りが必要である)
リサーチ・分析レポート
- 向き: claude-opus-4-5-20251101, gemini-3-pro-preview, gpt-5
- 不向き: mistralai/Mistral-Small-3.2-24B-Instruct-2506(複雑な論理矛盾の発見には知能指数が不足している)
- 条件付き: zai-org/GLM-4.7(中国・日本関連のリサーチには非常に強い)
ファクトチェック
- 向き: gpt-5 (Thinking), claude-opus-4-5-20251101
- 不向き: gemini-3-flash-preview(Pro版と比較してハルシネーション率が有意に高いという報告がある)
- 条件付き: command-r-plus(提供されたドキュメントの範囲内での検証に限定すれば、引用機能により非常に有用である)
Deep Research (大量文書統合)
- 向き: gemini-3-pro-preview (1M context), moonshotai/Kimi-K2.5 (Agent Swarm), zai-org/GLM-4.7 (Preserved Thinking)
- 不向き: Qwen/Qwen3-32B(コンテキスト窓が40Kと狭く、大量統合には不向きである)
- 条件付き: meta-llama/Llama-4-Scout-17B-16E-Instruct(200Kトークンを超えると統合・合成能力が低下するとの報告がある)
チャット・即応用途
- 向き: gemini-3-flash-preview, gpt-5-mini, grok-4-fast-non-reasoning
- 不向き: claude-opus-4-5-20251101(レイテンシが大きく、会話のテンポを阻害する)
- 条件付き: zai-org/GLM-4.7-Flash(特定環境でのAPI応答速度が不安定な場合がある)
5. 結論:推奨構成
| 構成 | 内容 |
|---|---|
| 最高精度リサーチ構成 | claude-opus-4-5-20251101 をメインの思考エンジンとし、その外部メモリツールに gemini-3-pro-preview を通じて解析した大量の文献データを流し込む構成である |
| コスト最適化エージェント構成 | gemini-3-flash-preview をベースエージェントとして採用し、重要判断時のみ gpt-5-mini の推論モードを呼び出すハイブリッド構成である。運用コストを従来の70%以上削減しつつ、必要な推論精度を維持できる |
| オンプレミス・機密データ処理構成 | meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 を基盤とし、ローカルGPUで運用する構成である。データの社外流出を完全に防ぎつつ、商用API(GPT-4級)と同等の性能を維持できる |