1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2025年最新版:人気AIモデル徹底比較ガイド完全版

Last updated at Posted at 2025-11-15

Cover Image

AIモデルの包括的パフォーマンス比較分析 🚀

品質、価格、出力速度、レイテンシ、コンテキストウィンドウなど、主要なパフォーマンス指標を横断してAIモデルを徹底比較・分析します。各モデルをクリックすると詳細なメトリクスを確認できます。方法論を含む詳細については、FAQセクションをご覧ください。

モデル比較サマリー 📊

インテリジェンス(知性)

GPT-5.1 (high) と GPT-5 Codex (high) が最高のインテリジェンスを誇るモデルであり、その後に GPT-5 (high) と Kimi K2 Thinking が続きます。

出力速度(トークン/秒)

Gemini 2.5 Flash-Lite (Sep)(662 t/s)と Gemini 2.5 Flash-Lite(479 t/s)が最速のモデルで、次いで Gemini 2.5 Flash-Lite (Sep) と gpt-oss-120B (high) が続いています。

レイテンシ(秒) ⚡

Command-R(0.21秒)と Apriel-v1.5-15B-Thinker(0.21秒)が最も低いレイテンシを実現しており、次に DeepSeek-OCR と Llama Nemotron Super 49B v1.5 が続きます。

価格(100万トークンあたりのドル) 💰

Gemma 3n E4B($0.03)と Ministral 3B($0.04)が最も安価なモデルで、次いで Gemma 2 9B と DeepSeek-OCR となっています。

コンテキストウィンドウ

Llama 4 Scout(10m)と MiniMax-Text-01(4m)が最大のコンテキストウィンドウを持つモデルで、その後に Grok 4 Fast が続きます。


ハイライト指標 ✨

インテリジェンス

Artificial Analysis Intelligence Index(数値が高いほど優れています)

モデル名 スコア
GPT-5.1(high) 70
Kimi K2 Thinking 67
Grok 4 65
Claude 4.5 Sonnet 63
MiniMax-M2 61
gpt-oss-120B(high) 61
Grok 4 Fast 60
Gemini 2.5 Pro 60
Qwen3 235B A22B 2507 57
DeepSeek V3.2 Exp 57
Gemini 2.5 Flash (Sep) 54
Llama 4 Maverick 36

スピード

出力トークン/秒(数値が高いほど優れています)

モデル名 速度 (t/s)
gpt-oss-120B(high) 350
Gemini 2.5 Flash (Sep) 267
Grok 4 Fast 223
GPT-5.1(high) 196
Gemini 2.5 Pro 148
Llama 4 Maverick 121
MiniMax-M2 99
Kimi K2 Thinking 84
Qwen3 235B A22B 2507 82
Claude 4.5 Sonnet 62
Grok 4 39
DeepSeek V3.2 Exp 28

価格

100万トークンあたりのUSD(数値が低いほど優れています)

モデル名 価格 ($)
gpt-oss-120B(high) 0.3
Grok 4 Fast 0.3
DeepSeek V3.2 Exp 0.3
Llama 4 Maverick 0.4
MiniMax-M2 0.5
Gemini 2.5 Flash (Sep) 0.8
Kimi K2 Thinking 1.1
Qwen3 235B A22B 2507 2.6
GPT-5.1(high) 3.4
Gemini 2.5 Pro 3.4
Claude 4.5 Sonnet 6.0
Grok 4 6.0

ナビゲーション 🧭

インテリジェンス

  • Intelligence Index比較
  • Intelligence Indexトークン使用量とコスト

速度

  • レイテンシ(エンドツーエンド応答時間)

モデルサイズ(オープンウェイトモデルのみ)


プロンプトオプション

並列クエリ:

  • 単一
  • 複数(1kトークンのみ)

プロンプト長:

  • 100トークン
  • 1kトークン
  • 10kトークン
  • 100kトークン
  • コーディング(1kトークン)

インテリジェンス詳細分析 🧠

Artificial Analysis Intelligence Index

Artificial Analysis Intelligence Index v3.0は、10種類の評価を統合しています:

  • MMLU-Pro
  • GPQA Diamond
  • Humanity's Last Exam
  • LiveCodeBench
  • SciCode
  • AIME 2025
  • IFBench
  • AA-LCR
  • Terminal-Bench Hard
  • 𝜏²-Bench Telecom

333モデル中23モデルを表示

モデル名 スコア
GPT-5.1(high) 70
GPT-5 Codex(high) 68
Kimi K2 Thinking 67
Grok 4 65
Claude 4.5 Sonnet 63
MiniMax-M2 61
gpt-oss-120B(high) 61
Grok 4 Fast 60
Gemini 2.5 Pro 60
Qwen3 235B A22B 2507 57
DeepSeek V3.2 Exp 57
GLM-4.6 56
Claude 4.5 Haiku 55
Gemini 2.5 Flash(Sep) 54
gpt-oss-20B(high) 52
Magistral Medium 1.2 52
DeepSeek R1 0528 52
Apriel-v1.5-15B-Thinker 52
Kimi K2 0905 50
Llama Nemotron Super 49B v1.5 45
GPT-5.1 43
EXAONE 4.0 32B 43
Llama 4 Maverick 36

Artificial Analysis Intelligence Indexについて

複数のインテリジェンス次元をカバーする複合メトリクスで、モデルの賢さを比較する最もシンプルな方法です。バージョン3.0は2025年9月にリリースされ、10種類の評価を統合しています。各評価の詳細と実行方法については、Intelligence Index方法論をご覧ください。


オープンウェイト vs. プロプライエタリ 📦

オープンウェイトとは:

モデルの重みが利用可能かどうかを示します。重みは利用可能だが商用利用が制限されている場合(通常、有償ライセンスの取得が必要)、モデルには「商用利用制限あり」とラベル付けされます。


インテリジェンス評価項目詳細 📝

Artificial Analysisによって独立して測定されたインテリジェンス評価(数値が高いほど優れています)

10評価項目のうち10項目、333モデル中23モデルを表示

1. Terminal-Bench Hard(エージェンティックコーディング&ターミナル使用)

モデル名 スコア
GPT-5.1(high) 43%
Grok 4 38%
GPT-5 Codex(high) 36%
Claude 4.5 Sonnet 33%
DeepSeek V3.2 Exp 29%
Kimi K2 Thinking 29%
Claude 4.5 Haiku 26%
Gemini 2.5 Pro 25%
MiniMax-M2 24%
GLM-4.6 23%
Kimi K2 0905 23%
gpt-oss-120B(high) 22%

2. 𝜏²-Bench Telecom(エージェンティックツール使用) 🔧

モデル名 スコア
Kimi K2 Thinking 93%
GPT-5 Codex(high) 87%
MiniMax-M2 87%
GPT-5.1(high) 82%
Claude 4.5 Sonnet 78%
Grok 4 75%
Kimi K2 0905 73%
GLM-4.6 71%
Apriel-v1.5-15B-Thinker 68%
gpt-oss-120B(high) 66%
Grok 4 Fast 66%
gpt-oss-20B(high) 60%

3. AA-LCR(長文コンテキスト推論) 💡

モデル名 スコア
GPT-5.1(high) 75%
Claude 4.5 Haiku 70%
GPT-5 Codex(high) 69%
DeepSeek V3.2 Exp 69%
Grok 4 68%
Qwen3 235B A22B 2507 67%
Kimi K2 Thinking 66%
Gemini 2.5 Pro 66%
Claude 4.5 Sonnet 66%
Grok 4 Fast 65%
Gemini 2.5 Flash(Sep) 64%
MiniMax-M2 61%

4. Humanity's Last Exam(推論と知識) ⚠️

モデル名 スコア
GPT-5.1(high) 26.5%
GPT-5 Codex(high) 25.6%
Grok 4 23.9%
Kimi K2 Thinking 22.3%
Gemini 2.5 Pro 21.1%
gpt-oss-120B(high) 18.5%
Claude 4.5 Sonnet 17.3%
Grok 4 Fast 17.0%
Qwen3 235B A22B 2507 15.0%
DeepSeek R1 0528 14.9%

5. MMLU-Pro(推論と知識)

モデル名 スコア
Claude 4.5 Sonnet 88%
GPT-5.1(high) 87%
Grok 4 87%
GPT-5 Codex(high) 87%
Gemini 2.5 Pro 86%
DeepSeek V3.2 Exp 85%
Grok 4 Fast 85%
DeepSeek R1 0528 85%
Kimi K2 Thinking 85%
Qwen3 235B A22B 2507 84%

6. GPQA Diamond(科学的推論)

モデル名 スコア
Grok 4 88%
GPT-5.1(high) 87%
Grok 4 Fast 85%
Gemini 2.5 Pro 84%
Kimi K2 Thinking 84%
GPT-5 Codex(high) 84%
Claude 4.5 Sonnet 83%
DeepSeek R1 0528 81%
DeepSeek V3.2 Exp 80%
Gemini 2.5 Flash(Sep) 79%

7. LiveCodeBench(コーディング)

モデル名 スコア
gpt-oss-120B(high) 88%
GPT-5.1(high) 87%
Kimi K2 Thinking 85%
GPT-5 Codex(high) 84%
Grok 4 Fast 83%
MiniMax-M2 83%
Grok 4 82%
Gemini 2.5 Pro 80%
DeepSeek V3.2 Exp 79%
Qwen3 235B A22B 2507 79%

8. SciCode(コーディング)

モデル名 スコア
Grok 4 46%
Claude 4.5 Sonnet 45%
Grok 4 Fast 44%
GPT-5.1(high) 43%
Claude 4.5 Haiku 43%
Gemini 2.5 Pro 43%
Kimi K2 Thinking 42%
Qwen3 235B A22B 2507 42%
GPT-5 Codex(high) 41%
Gemini 2.5 Flash(Sep) 41%

9. IFBench(指示追従)

モデル名 スコア
GPT-5 Codex(high) 74%
GPT-5.1(high) 73%
MiniMax-M2 72%
gpt-oss-120B(high) 69%
Kimi K2 Thinking 68%
gpt-oss-20B(high) 65%
Apriel-v1.5-15B-Thinker 62%
Claude 4.5 Sonnet 57%
Claude 4.5 Haiku 54%
DeepSeek V3.2 Exp 54%

10. AIME 2025(競技数学)

モデル名 スコア
GPT-5 Codex(high) 99%
Kimi K2 Thinking 95%
GPT-5.1(high) 94%
gpt-oss-120B(high) 93%
Grok 4 93%
Qwen3 235B A22B 2507 91%
Grok 4 Fast 90%
gpt-oss-20B(high) 89%
Claude 4.5 Sonnet 88%
Gemini 2.5 Pro 88%

Intelligence Index比較分析

インテリジェンス vs. 価格

Artificial Analysis Intelligence Index; 価格:100万トークンあたりのUSD

333モデル中23モデルを表示

最も魅力的な象限:

価格とインテリジェンスのバランスを示すグラフでは、以下のようなモデルの分布が確認できます:

  • 高インテリジェンス・高価格帯: GPT-5.1(high)、Grok 4、Claude 4.5 Sonnet
  • 高インテリジェンス・中価格帯: Kimi K2 Thinking、Gemini 2.5 Pro
  • 中インテリジェンス・低価格帯: Gemini 2.5 Flash(Sep)、DeepSeek V3.2 Exp、Llama 4 Maverick

価格品質の変動

高インテリジェンスモデルは通常より高価ですが、すべてが同じ価格品質曲線に従うわけではありません。一部のモデルは、コストパフォーマンスにおいて優れた価値を提供しています。


Intelligence Indexトークン使用量とコスト

Intelligence Indexトークン使用量

Artificial Analysis Intelligence Indexを実行するために使用された出力トークン数

すべての評価を実行するために使用されたトークン数(333モデル中23モデル)

モデル名 合計トークン 回答トークン 推論トークン
Kimi K2 Thinking 140M 130M 10M(推定)
Grok 4 120M 120M -
MiniMax-M2 120M 110M 10M(推定)
gpt-oss-120B(high) 110M 110M -
Apriel-v1.5-15B-Thinker 110M 110M -
Llama Nemotron Super 49B v1.5 110M 100M 10M(推定)
Qwen3 235B A22B 2507 110M 100M 10M(推定)
EXAONE 4.0 32B 100M 96M 4M(推定)
Gemini 2.5 Pro 100M 89M 11M(推定)
DeepSeek R1 0528 99M 91M 8M(推定)

Intelligence Indexコスト

Artificial Analysis Intelligence Indexを実行するためのコスト(USD)

すべての評価を実行するためのコスト(333モデル中23モデル)

モデル名 合計コスト
Grok 4 $1,888
Gemini 2.5 Pro $1,068
Qwen3 235B A22B 2507 $934
GPT-5.1(high) $859
GPT-5 Codex(high) $829
Claude 4.5 Sonnet $817
Magistral Medium 1.2 $497
DeepSeek R1 0528 $440

コンテキストウィンドウ分析

インテリジェンス vs. コンテキストウィンドウ

コンテキストウィンドウ:トークン上限(数値が高いほど優れています)

333モデル中23モデル

モデル名 コンテキストウィンドウ
Grok 4 Fast 2.00M
Llama 4 Maverick 1.00M
Kimi K2 Thinking 1.00M
Kimi K2 0905 1.00M
Qwen3 235B A22B 2507 1.00M
MiniMax-M2 400k
Claude 4.5 Haiku 400k
GLM-4.6 400k
gpt-oss-20B(high) 256k
gpt-oss-120B(high) 256k
EXAONE 4.0 32B 256k
Magistral Medium 1.2 256k
DeepSeek R1 0528 205k
DeepSeek V3.2 Exp 200k
Llama Nemotron Super 49B v1.5 200k
Apriel-v1.5-15B-Thinker 131k
Gemini 2.5 Flash(Sep) 131k
Gemini 2.5 Pro 128k
Claude 4.5 Sonnet 128k
GPT-5.1 128k
GPT-5.1(high) 128k
GPT-5 Codex(high) 128k
Grok 4 128k

コンテキストウィンドウとRAGワークフロー 🤖

より大きなコンテキストウィンドウは、RAG(Retrieval Augmented Generation)を活用したLLMワークフローにおいて重要な役割を果たします。これらのワークフローでは、通常、膨大なデータの推論と情報検索が伴います。

コンテキストウィンドウとは:

入力トークンと出力トークンを合わせた最大数。出力トークンは通常、モデルによって異なりますが、入力トークンよりも大幅に低い制限があります。


価格設定 💰

入力・出力価格

価格:100万トークンあたりのUSD

333モデル中23モデル

モデル名 入力価格 ($) 出力価格 ($)
gpt-oss-20B(high) 0.06 0.20
Llama Nemotron Super 49B v1.5 0.10 0.40
DeepSeek V3.2 Exp 0.28 0.42
Grok 4 Fast 0.20 0.50
gpt-oss-120B(high) 0.15 0.60
Llama 4 Maverick 0.27 0.85
MiniMax-M2 0.30 1.20
EXAONE 4.0 32B 0.60 1.00
GLM-4.6 0.60 2.20
Gemini 2.5 Flash(Sep) 0.30 2.50
Kimi K2 Thinking 0.60 2.50
Kimi K2 0905 0.99 2.50
DeepSeek R1 0528 1.35 4.00
Claude 4.5 Haiku 1.00 5.00
Magistral Medium 1.2 2.00 5.00
Qwen3 235B A22B 2507 0.70 8.40
GPT-5.1 1.25 10.00
GPT-5.1(high) 1.25 10.00
GPT-5 Codex(high) 1.25 10.00
Gemini 2.5 Pro 1.25 10.00
Claude 4.5 Sonnet 3.00 15.00
Grok 4 3.00 15.00

入力価格について:

APIに送信されるリクエスト/メッセージに含まれるトークンあたりの価格。100万トークンあたりのUSDで表示されます。


速度分析 🚀

出力速度

1秒あたりの出力トークン数(高いほど良い)

333モデル中23モデル

モデル名 出力速度 (t/s)
gpt-oss-120B(high) 350
Gemini 2.5 Flash(Sep) 267
gpt-oss-20B(high) 239
Grok 4 Fast 223
GPT-5.1(high) 196
Gemini 2.5 Pro 148
Apriel-v1.5-15B-Thinker 144
GPT-5 Codex(high) 131
GPT-5.1 125
Llama 4 Maverick 121
GLM-4.6 109
MiniMax-M2 99
Magistral Medium 1.2 94
EXAONE 4.0 32B 92
Kimi K2 Thinking 84
Qwen3 235B A22B 2507 82
Llama Nemotron Super 49B v1.5 72
Claude 4.5 Sonnet 62
Kimi K2 0905 60
Claude 4.5 Haiku 52
Grok 4 39
DeepSeek V3.2 Exp 28

出力速度について:

モデルがトークンを生成している間に1秒あたりに受信されるトークン数(つまり、ストリーミングをサポートするモデルの場合、APIから最初のチャンクが受信された後)。


レイテンシ分析 ⚡

最初の回答トークンまでの時間

最初の回答トークンを受信するまでの秒数(低いほど良い)

333モデル中23モデル

モデル名 レイテンシ (秒) 思考時間 (秒)
Kimi K2 0905 0.5 -
Llama 4 Maverick 0.6 -
GPT-5.1 0.7 -
Grok 4 Fast 3.1 -
gpt-oss-120B(high) 6.2 -
Grok 4 6.7 -
gpt-oss-20B(high) 8.7 -
Gemini 2.5 Flash(Sep) 13.9 -
Apriel-v1.5-15B-Thinker 14.1 -
GLM-4.6 18.9 -
GPT-5.1(high) 20.2 8.4
MiniMax-M2 21.4 13.9
Magistral Medium 1.2 21.8 -
EXAONE 4.0 32B 22.1 -
Kimi K2 Thinking 24.4 18.4
Qwen3 235B A22B 2507 25.5 20.3
GPT-5 Codex(high) 26.0 21.3
Llama Nemotron Super 49B v1.5 28.0 21.8
Claude 4.5 Sonnet 34.2 23.8
Gemini 2.5 Pro 38.0 24.3
Claude 4.5 Haiku 39.1 27.8
DeepSeek V3.2 Exp 73.1 71.9

最初の回答トークンまでの時間について:

APIリクエスト送信後、最初の回答トークンを受信するまでの時間(秒)。推論モデルの場合、これには回答を提供する前のモデルの「思考」時間が含まれます。

エンドツーエンド応答時間

500トークンを出力するまでの秒数(低いほど良い)

333モデル中23モデル

モデル名 合計時間 (秒) 思考時間 (秒) 入力処理 (秒) 出力時間 (秒)
Llama 4 Maverick 4.7 - - 4.7
GPT-5.1 4.7 - - 4.7
Grok 4 Fast 5.3 - - 5.3
gpt-oss-120B(high) 7.6 - - 7.6
Kimi K2 0905 8.9 - - 8.9
gpt-oss-20B(high) 10.8 - - 10.8
Gemini 2.5 Flash(Sep) 15.8 - 13.9 -
Apriel-v1.5-15B-Thinker 17.6 - - 17.6
Grok 4 19.7 - - 19.7
GPT-5.1(high) 22.7 20.2 - -
GLM-4.6 23.5 - 18.0 -
MiniMax-M2 26.5 26.0 - -
Magistral Medium 1.2 27.1 - - 27.1
EXAONE 4.0 32B 27.6 - - 27.6
GPT-5 Codex(high) 29.8 - - 29.8
Kimi K2 Thinking 30.4 - - 30.4
Qwen3 235B A22B 2507 31.6 - - 31.6
Llama Nemotron Super 49B v1.5 35.0 - - 35.0
Gemini 2.5 Pro 41.4 38.0 - -
Claude 4.5 Sonnet 42.3 - - 42.3
Claude 4.5 Haiku 48.7 - - 48.7
DeepSeek V3.2 Exp 91.1 71.9 - -

エンドツーエンド応答時間について:

500トークンの応答を受信するまでの秒数。主要な構成要素:

  • 入力時間: 最初の応答トークンを受信するまでの時間
  • 思考時間(推論モデルのみ): 推論モデルが回答を提供する前に推論するためにトークンを出力するのに費やす時間
  • 回答時間: 出力速度に基づいて500個の出力トークンを生成するまでの時間

モデルサイズ(オープンウェイトモデルのみ) 🔧

総パラメータ数とアクティブパラメータ数

モデルの総パラメータ数と推論時にアクティブなパラメータ数の比較

333モデル中23モデル

モデル名 総パラメータ (B) アクティブパラメータ (B) パッシブパラメータ (B)
Kimi K2 Thinking 1000 1000 -
Kimi K2 0905 1000 1000 -
DeepSeek R1 0528 685 685 -
DeepSeek V3.2 Exp 685 685 -
Llama 4 Maverick 402 370 32
GLM-4.6 357 325 32
Qwen3 235B A22B 2507 235 235 -
MiniMax-M2 230 208 22
gpt-oss-120B(high) 117 117 -
Llama Nemotron Super 49B v1.5 49 39 10
EXAONE 4.0 32B 32 27 5
gpt-oss-20B(high) 21 17 4
Apriel-v1.5-15B-Thinker 15 15 -

用語解説:

  • 総パラメータ数: モデル内の訓練可能な重みとバイアスの総数を10億単位で表現したもの。これらのパラメータはトレーニング中に学習され、モデルが応答を処理および生成する能力を決定します。

  • 推論時のアクティブパラメータ数: 各推論フォワードパス中に実際に実行されるパラメータの数を10億単位で表現したもの。Mixture of Experts(MoE)モデルの場合、ルーティングメカニズムがトークンごとにエキスパートのサブセットを選択するため、アクティブパラメータは総パラメータよりも少なくなります。デンスモデルはすべてのパラメータを使用するため、アクティブパラメータは総パラメータと等しくなります。


まとめ

この包括的な分析により、各AIモデルの強みと弱みが明確になりました。モデル選択の際は、以下の要素を考慮してください:

  1. インテリジェンス要件: タスクの複雑さに応じて適切なモデルを選択
  2. 予算制約: コストパフォーマンスのバランスを評価
  3. 速度要件: リアルタイム応答が必要かバッチ処理で十分か
  4. コンテキストサイズ: 処理する必要のあるデータ量
  5. 専門性: 特定のタスク(コーディング、推論、ツール使用など)における性能

最適なモデルは、ユースケースによって異なります。この分析データを活用して、ニーズに最適なモデルを選択してください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?