4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2026年2月 LLMは用途で選ぶ時代だった——26モデル比較が体感と完全一致した

4
Last updated at Posted at 2026-02-02

はじめに

本記事は、Claude・OpenAI・GeminiのDeepResearchを10回以上実行し、その結果を統合してまとめたものである。
各社のDeepResearchが返してきた情報を突き合わせ、矛盾点を精査し、信頼性の高いデータのみを抽出した。完全に正確である保証はないが、筆者の実務における体感と一致していたため、投稿した。
モデル選びの指針程度の役には立つと思う。(実際に使う場合は自己判断、及び、最新情報を要確認)

筆者のLLM利用状況

  • Gemini / Claude / OpenAI: 全て課金済み
  • Gemini / OpenAI: APIでもヘビーに使用中
  • OSSモデル: キャッチアップのための動作確認と、個人サービスで一部利用

この程度には日常的にLLMを触っている人間の「体感」である、という前提で読んでいただければと思う。

筆者の体感(前置き)

様々なプロジェクトを通じて、文章の要約・翻訳・日本語力・綺麗な文章構成といった観点では、Claudeが優れていると感じてきた。本調査の結果は、まさにその体感と一致していた。

また、Geminiの長文処理能力やGPTのファクトチェック・推論の堅牢さについても、筆者の実務での印象と符合している。

結論から言えば、2026年のLLM選定は「どれが最強か」ではなく「何に使うか」で決まる時代に突入していた。(ちょっと言い過ぎ)


1. エグゼクティブサマリ

本調査は、2026年2月時点において市場を牽引する26種類の主要な大規模言語モデル(LLM)を対象とし、公式ドキュメント、論文、および第三者機関による公開評価データに基づき実施された。

調査の結果、モデル選択の基準は単なる「知能の高さ」から「特定のワークフローへのアーキテクチャ的適合性」へと決定的に移行していることが判明した。

用途別トップ3モデルの選定と根拠

用途 第1位 第2位 第3位
ビジネス文書要約・翻訳 claude-sonnet-4-5-20250929 command-r-plus gpt-5-mini
リサーチ・分析レポート claude-opus-4-5-20251101 gemini-3-pro-preview gpt-5
ファクトチェック gpt-5 claude-opus-4-5-20251101 gemini-3-pro-preview
Deep Research (大量文書統合) gemini-3-pro-preview moonshotai/Kimi-K2.5 zai-org/GLM-4.7
チャット・即応用途 gemini-3-flash-preview gpt-5-mini grok-4-fast-non-reasoning

選定理由と前提条件

ビジネス文書要約・翻訳

  • claude-sonnet-4-5-20250929: 実務開発者から「最良のコーディング・ビジネスモデル」と評されており、先行モデルと比較して2〜3倍の応答速度を維持しつつ、SWE-bench Verifiedで77.2%の解決率を達成している
  • command-r-plus: エンタープライズRAGに特化しており、10言語のネイティブな理解と正確な引用(Grounding)能力に強みがある

リサーチ・分析レポート

  • claude-opus-4-5-20251101: 努力パラメータ(effort parameter)により、複雑なリサーチタスクにおいてトークン消費を抑えつつ精度を最大化できる。ARC-AGI-2テストにおいて37.6%を記録した
  • gemini-3-pro-preview: 100万トークンの入力が可能であり、思考署名(thought signatures)によって推論の一貫性を担保している

ファクトチェック

  • gpt-5: 思考モード(Thinking Mode)とブラウジングの併用により、ハルシネーション率を従来の1%以下に抑え、factual errorsを80%削減したと報告されている

Deep Research

  • gemini-3-pro-preview: 100万トークン窓により、大量の一次情報を一括処理する上で他を圧倒している
  • moonshotai/Kimi-K2.5: Agent Swarm技術により最大100個のサブエージェントを並列駆動し、数千のツール呼び出しを統合管理することが可能である

チャット・即応用途

  • gemini-3-flash-preview: 前世代のProモデルを凌駕する性能をFlash級の低レイテンシで提供しており、出力速度は毎秒218トークンに達する

2. 総合比較表:モデル別主要仕様

調査対象の全26モデルについて、一次情報に基づく詳細スペックをまとめた。不明な項目は Unknown と表記している。

A. DeepInfra経由およびオープンウェイトモデル

model_id 提供形態 context length input上限 output上限 推論モード 1M input ($) 1M output ($)
moonshotai/Kimi-K2.5 OSS/API 256K 256K Unknown 有 (Thinking) 0.60 3.00
zai-org/GLM-4.7 OSS/API 200K 200K 128K 有 (Preserved) 0.60 2.20
zai-org/GLM-4.7-Flash OSS/API 200K 200K 128K 有 (MLA+MoE) 0.00 (Free) 0.00 (Free)
Qwen/Qwen3-30B-A3B OSS 256K 256K Unknown 有 (Thinking) 0.23 2.39
Qwen/Qwen3-32B OSS 40K 40K Unknown 0.08 0.29
Qwen/Qwen3-Next-80B-A3B-Instruct OSS 262K 262K 262K 無 (Instruct) 0.15 1.20
meta-llama/Llama-4-Scout-17B-16E-Instruct OSS 327K 1M (API) 8K 0.18 0.59
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 OSS 524K 512K 4K 0.27 0.85
MiniMaxAI/MiniMax-M2.1 OSS/API 196K 1M 8K 有 (Reasoning) 0.28 1.20
deepseek-ai/DeepSeek-V3.2 OSS/API 128K 128K 64K 有 (Thinking) 0.26 0.38
deepseek-ai/DeepSeek-R1-0528-Turbo OSS/API 32K 32K 32K 有 (Thinking) 1.00 3.00
openai/gpt-oss-120b OSS 128K 131K 131K 有 (Thinking) 0.15 0.60
mistralai/Mistral-Small-3.2-24B-Instruct-2506 OSS 128K 128K Unknown 0.075 0.20
nvidia/Nemotron-3-Nano-30B-A3B OSS 131K 128K 128K 有 (Configurable) 0.80 2.40

B. 公式API提供モデル

model_id 提供元 context length input上限 output上限 制御パラメータ 1M input ($) 1M output ($)
gpt-5 OpenAI 400K 272K 128K reasoning_effort 1.25 10.00
gpt-5-mini OpenAI 400K 272K 128K reasoning_effort 0.25 2.00
claude-sonnet-4-5-20250929 Anthropic 200K 200K / 1M (beta) 64K extended thinking 3.00 15.00
claude-opus-4-5-20251101 Anthropic 200K 200K 64K effort (Low/Med/High) 5.00 25.00
gemini-3-pro-preview Google 1M 1M 64K thinking_level 2.00 (<200K) 12.00 (<200K)
gemini-3-flash-preview Google 1M 1M 64K thinking_level 0.50 3.00
grok-4x xAI 256K 256K 256K reasoning only 3.00 15.00
grok-4-fast-reasoning xAI 2M 2M 2M Live Search 0.20 0.50
grok-4-fast-non-reasoning xAI 2M 2M 2M Live Search 0.20 0.50
grok-code-fast-1 xAI 256K 256K 256K Agentic coding 0.20 1.50
command-r Cohere 128K 128K 4K Grounding Unknown Unknown
command-r-plus Cohere 128K 128K 4K Citations 2.50 10.00
mistral-large-2512+1 Mistral 256K 256K Unknown Open-weight 0.50 1.50

3. 評価軸ごとの詳細分析

(1) 長文処理能力(量 × 質)

2026年における長文処理能力の定義は、単に「どれだけのデータを読み込めるか(量)」から「読み込んだデータをどれだけ論理的に破綻させずに出力できるか(質)」へと進化した。

量的長文処理能力(Capacity)

  • meta-llama/Llama-4-Scout-17B-16E-Instruct: 設計上の上限は1,000万トークンである。ブロック単位のスパースアテンションを採用し、メモリ使用量を78%削減している
  • grok-4-fastシリーズ: 200万トークンを提供している。法的文書やレポジトリ全体の要約において「単一コールでの処理」という経済的優位性を確立した
  • gemini-3シリーズ: 標準で100万トークンを維持している。2,048トークン以上から利用可能なコンテキストキャッシュ機能により、繰り返し読み込みのコストを大幅に削減できる

質的長文処理能力(Integrity)

アプローチ モデル 説明
Preserved / Interleaved Thinking zai-org/GLM-4.7 マルチターン対話において先行するターンでの推論プロセスをコンテキスト内に保持し、後段の回答との矛盾を物理的に防ぐ。ツール呼び出しの前後に推論を挟む「Interleaved Thinking」により、複雑な指示への遵守精度を高めている
Context Management Tool claude-opus-4-5-20251101 標準の200Kトークン窓とは別に、ファイルシステムのように機能する外部メモリツール(Beta)を持つ。エージェントはセッションをまたいで情報を view, create, rename, delete できる
Compaction Technique gpt-5.1 会話履歴が上限に達する前に、過去のコンテキストを自動的に「コンパクション(要約圧縮)」する。実質的に数百万トークン相当のやり取りを矛盾なく継続することが可能である
Thought Signatures gemini-3-pro-preview APIレスポンスに推論過程の暗号化署名を付与する。次のリクエストでこの署名を返却することを義務付けており、モデルは自分の過去の思考を厳密に踏襲し、結論のブレを防止する

(2) 要約品質

観点 モデル 特徴
結論先出しと構造化 claude-sonnet-4-5-20250929 ビジネス文書における「論点・根拠・結論」の抽出能力に長けている。日本語での構造化出力において不自然な繋ぎが極めて少ない
分析から再構成への耐性 claude-opus-4-5-20251101 複数の異なる論点を持つ文書を読み解き、それらを統合して新たな洞察を生成する能力において最高水準の評価を得ている
技術・法的文書の正確性 command-r-plus 引用箇所を明示する「Grounding spans」の精度が高い。専門文書の処理に最適化されている

(3) ハルシネーション耐性

アプローチ モデル 特徴
不明時の自己申告 gpt-5.2 (Thinking mode) ブラウジングツールと連携した際にハルシネーション率1%未満を達成した
思考制御による検証 claude-opus-4-5-20251101 effort parameter により内部検証を強制する。High effort設定時には論理的誤謬が大幅に減少する
構造化出力の整合性 gemini-3-pro-preview Grounding with Google Search機能において、検索結果と出力の矛盾をチェックする専用の検証レイヤーを備えている

(4) 日本語力

観点 モデル 特徴
日本語推論ランキング Artificial Analysis (2026/01/28) 第1位: gemini-3-pro-preview (93)、同率1位: claude-opus-4-5-20251101 (93)
言語の自然さ claude-sonnet-4-5-20250929 日本独自のビジネス表現やニュアンスの保持において、「書き手の魂を感じさせる」と評されるほど人間らしい表現が可能である
アジア圏最適化 zai-org/GLM-4.7, Qwen3-235B-A22B 中国語と日本語のバイリンガルタスクや、漢字の微細なニュアンスを扱う業務において、米国産モデルを上回る効率性を示す場合がある

(5) コスト・運用性

  • API価格: xAI の grok-4-fast シリーズは 1Mトークンあたり input $0.20 / output $0.50 である。フラグシップモデルの1/10〜1/20の価格設定となっている
  • キャッシュ割引: OpenAI と Anthropic はプロンプトキャッシュの割引率を最大90%に設定している
  • OSS運用: Kimi-K2.5 や Llama-4-Maverick は 600GB〜1TB の VRAM を要求する。GLM-4.7-Flash や Nemotron-3-Nano は 24GB VRAM (RTX 3090/4090) 1枚で動作可能である

4. 総合性能(用途別適合性)

ビジネス文書要約・翻訳

  • 向き: claude-sonnet-4-5-20250929, command-r-plus, gpt-5-mini
  • 不向き: deepseek-ai/DeepSeek-R1-0528-Turbo(推論過程の出力により要約としては冗長になりすぎる傾向がある)
  • 条件付き: grok-4-fast-non-reasoning(要約の正確性を期すために Live Search での裏取りが必要である)

リサーチ・分析レポート

  • 向き: claude-opus-4-5-20251101, gemini-3-pro-preview, gpt-5
  • 不向き: mistralai/Mistral-Small-3.2-24B-Instruct-2506(複雑な論理矛盾の発見には知能指数が不足している)
  • 条件付き: zai-org/GLM-4.7(中国・日本関連のリサーチには非常に強い)

ファクトチェック

  • 向き: gpt-5 (Thinking), claude-opus-4-5-20251101
  • 不向き: gemini-3-flash-preview(Pro版と比較してハルシネーション率が有意に高いという報告がある)
  • 条件付き: command-r-plus(提供されたドキュメントの範囲内での検証に限定すれば、引用機能により非常に有用である)

Deep Research (大量文書統合)

  • 向き: gemini-3-pro-preview (1M context), moonshotai/Kimi-K2.5 (Agent Swarm), zai-org/GLM-4.7 (Preserved Thinking)
  • 不向き: Qwen/Qwen3-32B(コンテキスト窓が40Kと狭く、大量統合には不向きである)
  • 条件付き: meta-llama/Llama-4-Scout-17B-16E-Instruct(200Kトークンを超えると統合・合成能力が低下するとの報告がある)

チャット・即応用途

  • 向き: gemini-3-flash-preview, gpt-5-mini, grok-4-fast-non-reasoning
  • 不向き: claude-opus-4-5-20251101(レイテンシが大きく、会話のテンポを阻害する)
  • 条件付き: zai-org/GLM-4.7-Flash(特定環境でのAPI応答速度が不安定な場合がある)

5. 結論:推奨構成

構成 内容
最高精度リサーチ構成 claude-opus-4-5-20251101 をメインの思考エンジンとし、その外部メモリツールに gemini-3-pro-preview を通じて解析した大量の文献データを流し込む構成である
コスト最適化エージェント構成 gemini-3-flash-preview をベースエージェントとして採用し、重要判断時のみ gpt-5-mini の推論モードを呼び出すハイブリッド構成である。運用コストを従来の70%以上削減しつつ、必要な推論精度を維持できる
オンプレミス・機密データ処理構成 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 を基盤とし、ローカルGPUで運用する構成である。データの社外流出を完全に防ぎつつ、商用API(GPT-4級)と同等の性能を維持できる

参照URL一覧

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?