2026年2月 LLMは用途で選ぶ時代だった——26モデル比較が体感と完全一致した

Last updated at 2026-02-02Posted at 2026-02-02

はじめに

本記事は、Claude・OpenAI・GeminiのDeepResearchを10回以上実行し、その結果を統合してまとめたものである。
各社のDeepResearchが返してきた情報を突き合わせ、矛盾点を精査し、信頼性の高いデータのみを抽出した。完全に正確である保証はないが、筆者の実務における体感と一致していたため、投稿した。
モデル選びの指針程度の役には立つと思う。(実際に使う場合は自己判断、及び、最新情報を要確認)

筆者のLLM利用状況

Gemini / Claude / OpenAI: 全て課金済み
Gemini / OpenAI: APIでもヘビーに使用中
OSSモデル: キャッチアップのための動作確認と、個人サービスで一部利用

この程度には日常的にLLMを触っている人間の「体感」である、という前提で読んでいただければと思う。

筆者の体感（前置き）

様々なプロジェクトを通じて、文章の要約・翻訳・日本語力・綺麗な文章構成といった観点では、Claudeが優れていると感じてきた。本調査の結果は、まさにその体感と一致していた。

また、Geminiの長文処理能力やGPTのファクトチェック・推論の堅牢さについても、筆者の実務での印象と符合している。

結論から言えば、2026年のLLM選定は「どれが最強か」ではなく「何に使うか」で決まる時代に突入していた。(ちょっと言い過ぎ)

1. エグゼクティブサマリ

本調査は、2026年2月時点において市場を牽引する26種類の主要な大規模言語モデル（LLM）を対象とし、公式ドキュメント、論文、および第三者機関による公開評価データに基づき実施された。

調査の結果、モデル選択の基準は単なる「知能の高さ」から「特定のワークフローへのアーキテクチャ的適合性」へと決定的に移行していることが判明した。

用途別トップ3モデルの選定と根拠

用途	第1位	第2位	第3位
ビジネス文書要約・翻訳	claude-sonnet-4-5-20250929	command-r-plus	gpt-5-mini
リサーチ・分析レポート	claude-opus-4-5-20251101	gemini-3-pro-preview	gpt-5
ファクトチェック	gpt-5	claude-opus-4-5-20251101	gemini-3-pro-preview
Deep Research (大量文書統合)	gemini-3-pro-preview	moonshotai/Kimi-K2.5	zai-org/GLM-4.7
チャット・即応用途	gemini-3-flash-preview	gpt-5-mini	grok-4-fast-non-reasoning

選定理由と前提条件

ビジネス文書要約・翻訳

claude-sonnet-4-5-20250929: 実務開発者から「最良のコーディング・ビジネスモデル」と評されており、先行モデルと比較して2〜3倍の応答速度を維持しつつ、SWE-bench Verifiedで77.2%の解決率を達成している
command-r-plus: エンタープライズRAGに特化しており、10言語のネイティブな理解と正確な引用（Grounding）能力に強みがある

リサーチ・分析レポート

claude-opus-4-5-20251101: 努力パラメータ（effort parameter）により、複雑なリサーチタスクにおいてトークン消費を抑えつつ精度を最大化できる。ARC-AGI-2テストにおいて37.6%を記録した
gemini-3-pro-preview: 100万トークンの入力が可能であり、思考署名（thought signatures）によって推論の一貫性を担保している

ファクトチェック

gpt-5: 思考モード（Thinking Mode）とブラウジングの併用により、ハルシネーション率を従来の1%以下に抑え、factual errorsを80%削減したと報告されている

Deep Research

gemini-3-pro-preview: 100万トークン窓により、大量の一次情報を一括処理する上で他を圧倒している
moonshotai/Kimi-K2.5: Agent Swarm技術により最大100個のサブエージェントを並列駆動し、数千のツール呼び出しを統合管理することが可能である

チャット・即応用途

gemini-3-flash-preview: 前世代のProモデルを凌駕する性能をFlash級の低レイテンシで提供しており、出力速度は毎秒218トークンに達する

2. 総合比較表：モデル別主要仕様

調査対象の全26モデルについて、一次情報に基づく詳細スペックをまとめた。不明な項目は Unknown と表記している。

A. DeepInfra経由およびオープンウェイトモデル

model_id	提供形態	context length	input上限	output上限	推論モード	1M input ($)	1M output ($)
moonshotai/Kimi-K2.5	OSS/API	256K	256K	Unknown	有 (Thinking)	0.60	3.00
zai-org/GLM-4.7	OSS/API	200K	200K	128K	有 (Preserved)	0.60	2.20
zai-org/GLM-4.7-Flash	OSS/API	200K	200K	128K	有 (MLA+MoE)	0.00 (Free)	0.00 (Free)
Qwen/Qwen3-30B-A3B	OSS	256K	256K	Unknown	有 (Thinking)	0.23	2.39
Qwen/Qwen3-32B	OSS	40K	40K	Unknown	無	0.08	0.29
Qwen/Qwen3-Next-80B-A3B-Instruct	OSS	262K	262K	262K	無 (Instruct)	0.15	1.20
meta-llama/Llama-4-Scout-17B-16E-Instruct	OSS	327K	1M (API)	8K	無	0.18	0.59
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	OSS	524K	512K	4K	無	0.27	0.85
MiniMaxAI/MiniMax-M2.1	OSS/API	196K	1M	8K	有 (Reasoning)	0.28	1.20
deepseek-ai/DeepSeek-V3.2	OSS/API	128K	128K	64K	有 (Thinking)	0.26	0.38
deepseek-ai/DeepSeek-R1-0528-Turbo	OSS/API	32K	32K	32K	有 (Thinking)	1.00	3.00
openai/gpt-oss-120b	OSS	128K	131K	131K	有 (Thinking)	0.15	0.60
mistralai/Mistral-Small-3.2-24B-Instruct-2506	OSS	128K	128K	Unknown	無	0.075	0.20
nvidia/Nemotron-3-Nano-30B-A3B	OSS	131K	128K	128K	有 (Configurable)	0.80	2.40

B. 公式API提供モデル

model_id	提供元	context length	input上限	output上限	制御パラメータ	1M input ($)	1M output ($)
gpt-5	OpenAI	400K	272K	128K	reasoning_effort	1.25	10.00
gpt-5-mini	OpenAI	400K	272K	128K	reasoning_effort	0.25	2.00
claude-sonnet-4-5-20250929	Anthropic	200K	200K / 1M (beta)	64K	extended thinking	3.00	15.00
claude-opus-4-5-20251101	Anthropic	200K	200K	64K	effort (Low/Med/High)	5.00	25.00
gemini-3-pro-preview	Google	1M	1M	64K	thinking_level	2.00 (<200K)	12.00 (<200K)
gemini-3-flash-preview	Google	1M	1M	64K	thinking_level	0.50	3.00
grok-4x	xAI	256K	256K	256K	reasoning only	3.00	15.00
grok-4-fast-reasoning	xAI	2M	2M	2M	Live Search	0.20	0.50
grok-4-fast-non-reasoning	xAI	2M	2M	2M	Live Search	0.20	0.50
grok-code-fast-1	xAI	256K	256K	256K	Agentic coding	0.20	1.50
command-r	Cohere	128K	128K	4K	Grounding	Unknown	Unknown
command-r-plus	Cohere	128K	128K	4K	Citations	2.50	10.00
mistral-large-2512+1	Mistral	256K	256K	Unknown	Open-weight	0.50	1.50

3. 評価軸ごとの詳細分析

(1) 長文処理能力（量 × 質）

2026年における長文処理能力の定義は、単に「どれだけのデータを読み込めるか（量）」から「読み込んだデータをどれだけ論理的に破綻させずに出力できるか（質）」へと進化した。

量的長文処理能力（Capacity）

meta-llama/Llama-4-Scout-17B-16E-Instruct: 設計上の上限は1,000万トークンである。ブロック単位のスパースアテンションを採用し、メモリ使用量を78%削減している
grok-4-fastシリーズ: 200万トークンを提供している。法的文書やレポジトリ全体の要約において「単一コールでの処理」という経済的優位性を確立した
gemini-3シリーズ: 標準で100万トークンを維持している。2,048トークン以上から利用可能なコンテキストキャッシュ機能により、繰り返し読み込みのコストを大幅に削減できる

質的長文処理能力（Integrity）

アプローチ	モデル	説明
Preserved / Interleaved Thinking	zai-org/GLM-4.7	マルチターン対話において先行するターンでの推論プロセスをコンテキスト内に保持し、後段の回答との矛盾を物理的に防ぐ。ツール呼び出しの前後に推論を挟む「Interleaved Thinking」により、複雑な指示への遵守精度を高めている
Context Management Tool	claude-opus-4-5-20251101	標準の200Kトークン窓とは別に、ファイルシステムのように機能する外部メモリツール（Beta）を持つ。エージェントはセッションをまたいで情報を view, create, rename, delete できる
Compaction Technique	gpt-5.1	会話履歴が上限に達する前に、過去のコンテキストを自動的に「コンパクション（要約圧縮）」する。実質的に数百万トークン相当のやり取りを矛盾なく継続することが可能である
Thought Signatures	gemini-3-pro-preview	APIレスポンスに推論過程の暗号化署名を付与する。次のリクエストでこの署名を返却することを義務付けており、モデルは自分の過去の思考を厳密に踏襲し、結論のブレを防止する

(2) 要約品質

観点	モデル	特徴
結論先出しと構造化	claude-sonnet-4-5-20250929	ビジネス文書における「論点・根拠・結論」の抽出能力に長けている。日本語での構造化出力において不自然な繋ぎが極めて少ない
分析から再構成への耐性	claude-opus-4-5-20251101	複数の異なる論点を持つ文書を読み解き、それらを統合して新たな洞察を生成する能力において最高水準の評価を得ている
技術・法的文書の正確性	command-r-plus	引用箇所を明示する「Grounding spans」の精度が高い。専門文書の処理に最適化されている

(3) ハルシネーション耐性

アプローチ	モデル	特徴
不明時の自己申告	gpt-5.2 (Thinking mode)	ブラウジングツールと連携した際にハルシネーション率1%未満を達成した
思考制御による検証	claude-opus-4-5-20251101	effort parameter により内部検証を強制する。High effort設定時には論理的誤謬が大幅に減少する
構造化出力の整合性	gemini-3-pro-preview	Grounding with Google Search機能において、検索結果と出力の矛盾をチェックする専用の検証レイヤーを備えている

(4) 日本語力

観点	モデル	特徴
日本語推論ランキング	Artificial Analysis (2026/01/28)	第1位: gemini-3-pro-preview (93)、同率1位: claude-opus-4-5-20251101 (93)
言語の自然さ	claude-sonnet-4-5-20250929	日本独自のビジネス表現やニュアンスの保持において、「書き手の魂を感じさせる」と評されるほど人間らしい表現が可能である
アジア圏最適化	zai-org/GLM-4.7, Qwen3-235B-A22B	中国語と日本語のバイリンガルタスクや、漢字の微細なニュアンスを扱う業務において、米国産モデルを上回る効率性を示す場合がある

(5) コスト・運用性

API価格: xAI の grok-4-fast シリーズは 1Mトークンあたり input $0.20 / output $0.50 である。フラグシップモデルの1/10〜1/20の価格設定となっている
キャッシュ割引: OpenAI と Anthropic はプロンプトキャッシュの割引率を最大90%に設定している
OSS運用: Kimi-K2.5 や Llama-4-Maverick は 600GB〜1TB の VRAM を要求する。GLM-4.7-Flash や Nemotron-3-Nano は 24GB VRAM (RTX 3090/4090) 1枚で動作可能である

4. 総合性能（用途別適合性）

ビジネス文書要約・翻訳

向き: claude-sonnet-4-5-20250929, command-r-plus, gpt-5-mini
不向き: deepseek-ai/DeepSeek-R1-0528-Turbo（推論過程の出力により要約としては冗長になりすぎる傾向がある）
条件付き: grok-4-fast-non-reasoning（要約の正確性を期すために Live Search での裏取りが必要である）

リサーチ・分析レポート

向き: claude-opus-4-5-20251101, gemini-3-pro-preview, gpt-5
不向き: mistralai/Mistral-Small-3.2-24B-Instruct-2506（複雑な論理矛盾の発見には知能指数が不足している）
条件付き: zai-org/GLM-4.7（中国・日本関連のリサーチには非常に強い）

ファクトチェック

向き: gpt-5 (Thinking), claude-opus-4-5-20251101
不向き: gemini-3-flash-preview（Pro版と比較してハルシネーション率が有意に高いという報告がある）
条件付き: command-r-plus（提供されたドキュメントの範囲内での検証に限定すれば、引用機能により非常に有用である）

Deep Research (大量文書統合)

向き: gemini-3-pro-preview (1M context), moonshotai/Kimi-K2.5 (Agent Swarm), zai-org/GLM-4.7 (Preserved Thinking)
不向き: Qwen/Qwen3-32B（コンテキスト窓が40Kと狭く、大量統合には不向きである）
条件付き: meta-llama/Llama-4-Scout-17B-16E-Instruct（200Kトークンを超えると統合・合成能力が低下するとの報告がある）

チャット・即応用途

向き: gemini-3-flash-preview, gpt-5-mini, grok-4-fast-non-reasoning
不向き: claude-opus-4-5-20251101（レイテンシが大きく、会話のテンポを阻害する）
条件付き: zai-org/GLM-4.7-Flash（特定環境でのAPI応答速度が不安定な場合がある）

5. 結論：推奨構成

構成	内容
最高精度リサーチ構成	claude-opus-4-5-20251101 をメインの思考エンジンとし、その外部メモリツールに gemini-3-pro-preview を通じて解析した大量の文献データを流し込む構成である
コスト最適化エージェント構成	gemini-3-flash-preview をベースエージェントとして採用し、重要判断時のみ gpt-5-mini の推論モードを呼び出すハイブリッド構成である。運用コストを従来の70%以上削減しつつ、必要な推論精度を維持できる
オンプレミス・機密データ処理構成	meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 を基盤とし、ローカルGPUで運用する構成である。データの社外流出を完全に防ぎつつ、商用API（GPT-4級）と同等の性能を維持できる

参照URL一覧

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up