AIモデルの包括的パフォーマンス比較分析 🚀
品質、価格、出力速度、レイテンシ、コンテキストウィンドウなど、主要なパフォーマンス指標を横断してAIモデルを徹底比較・分析します。各モデルをクリックすると詳細なメトリクスを確認できます。方法論を含む詳細については、FAQセクションをご覧ください。
モデル比較サマリー 📊
インテリジェンス(知性)
GPT-5.1 (high) と GPT-5 Codex (high) が最高のインテリジェンスを誇るモデルであり、その後に GPT-5 (high) と Kimi K2 Thinking が続きます。
出力速度(トークン/秒)
Gemini 2.5 Flash-Lite (Sep)(662 t/s)と Gemini 2.5 Flash-Lite(479 t/s)が最速のモデルで、次いで Gemini 2.5 Flash-Lite (Sep) と gpt-oss-120B (high) が続いています。
レイテンシ(秒) ⚡
Command-R(0.21秒)と Apriel-v1.5-15B-Thinker(0.21秒)が最も低いレイテンシを実現しており、次に DeepSeek-OCR と Llama Nemotron Super 49B v1.5 が続きます。
価格(100万トークンあたりのドル) 💰
Gemma 3n E4B($0.03)と Ministral 3B($0.04)が最も安価なモデルで、次いで Gemma 2 9B と DeepSeek-OCR となっています。
コンテキストウィンドウ
Llama 4 Scout(10m)と MiniMax-Text-01(4m)が最大のコンテキストウィンドウを持つモデルで、その後に Grok 4 Fast が続きます。
ハイライト指標 ✨
インテリジェンス
Artificial Analysis Intelligence Index(数値が高いほど優れています)
| モデル名 | スコア |
|---|---|
| GPT-5.1(high) | 70 |
| Kimi K2 Thinking | 67 |
| Grok 4 | 65 |
| Claude 4.5 Sonnet | 63 |
| MiniMax-M2 | 61 |
| gpt-oss-120B(high) | 61 |
| Grok 4 Fast | 60 |
| Gemini 2.5 Pro | 60 |
| Qwen3 235B A22B 2507 | 57 |
| DeepSeek V3.2 Exp | 57 |
| Gemini 2.5 Flash (Sep) | 54 |
| Llama 4 Maverick | 36 |
スピード
出力トークン/秒(数値が高いほど優れています)
| モデル名 | 速度 (t/s) |
|---|---|
| gpt-oss-120B(high) | 350 |
| Gemini 2.5 Flash (Sep) | 267 |
| Grok 4 Fast | 223 |
| GPT-5.1(high) | 196 |
| Gemini 2.5 Pro | 148 |
| Llama 4 Maverick | 121 |
| MiniMax-M2 | 99 |
| Kimi K2 Thinking | 84 |
| Qwen3 235B A22B 2507 | 82 |
| Claude 4.5 Sonnet | 62 |
| Grok 4 | 39 |
| DeepSeek V3.2 Exp | 28 |
価格
100万トークンあたりのUSD(数値が低いほど優れています)
| モデル名 | 価格 ($) |
|---|---|
| gpt-oss-120B(high) | 0.3 |
| Grok 4 Fast | 0.3 |
| DeepSeek V3.2 Exp | 0.3 |
| Llama 4 Maverick | 0.4 |
| MiniMax-M2 | 0.5 |
| Gemini 2.5 Flash (Sep) | 0.8 |
| Kimi K2 Thinking | 1.1 |
| Qwen3 235B A22B 2507 | 2.6 |
| GPT-5.1(high) | 3.4 |
| Gemini 2.5 Pro | 3.4 |
| Claude 4.5 Sonnet | 6.0 |
| Grok 4 | 6.0 |
ナビゲーション 🧭
インテリジェンス
- Intelligence Index比較
- Intelligence Indexトークン使用量とコスト
速度
- レイテンシ(エンドツーエンド応答時間)
モデルサイズ(オープンウェイトモデルのみ)
プロンプトオプション
並列クエリ:
- 単一
- 複数(1kトークンのみ)
プロンプト長:
- 100トークン
- 1kトークン
- 10kトークン
- 100kトークン
- コーディング(1kトークン)
インテリジェンス詳細分析 🧠
Artificial Analysis Intelligence Index
Artificial Analysis Intelligence Index v3.0は、10種類の評価を統合しています:
- MMLU-Pro
- GPQA Diamond
- Humanity's Last Exam
- LiveCodeBench
- SciCode
- AIME 2025
- IFBench
- AA-LCR
- Terminal-Bench Hard
- 𝜏²-Bench Telecom
333モデル中23モデルを表示
| モデル名 | スコア |
|---|---|
| GPT-5.1(high) | 70 |
| GPT-5 Codex(high) | 68 |
| Kimi K2 Thinking | 67 |
| Grok 4 | 65 |
| Claude 4.5 Sonnet | 63 |
| MiniMax-M2 | 61 |
| gpt-oss-120B(high) | 61 |
| Grok 4 Fast | 60 |
| Gemini 2.5 Pro | 60 |
| Qwen3 235B A22B 2507 | 57 |
| DeepSeek V3.2 Exp | 57 |
| GLM-4.6 | 56 |
| Claude 4.5 Haiku | 55 |
| Gemini 2.5 Flash(Sep) | 54 |
| gpt-oss-20B(high) | 52 |
| Magistral Medium 1.2 | 52 |
| DeepSeek R1 0528 | 52 |
| Apriel-v1.5-15B-Thinker | 52 |
| Kimi K2 0905 | 50 |
| Llama Nemotron Super 49B v1.5 | 45 |
| GPT-5.1 | 43 |
| EXAONE 4.0 32B | 43 |
| Llama 4 Maverick | 36 |
Artificial Analysis Intelligence Indexについて
複数のインテリジェンス次元をカバーする複合メトリクスで、モデルの賢さを比較する最もシンプルな方法です。バージョン3.0は2025年9月にリリースされ、10種類の評価を統合しています。各評価の詳細と実行方法については、Intelligence Index方法論をご覧ください。
オープンウェイト vs. プロプライエタリ 📦
オープンウェイトとは:
モデルの重みが利用可能かどうかを示します。重みは利用可能だが商用利用が制限されている場合(通常、有償ライセンスの取得が必要)、モデルには「商用利用制限あり」とラベル付けされます。
インテリジェンス評価項目詳細 📝
Artificial Analysisによって独立して測定されたインテリジェンス評価(数値が高いほど優れています)
10評価項目のうち10項目、333モデル中23モデルを表示
1. Terminal-Bench Hard(エージェンティックコーディング&ターミナル使用)
| モデル名 | スコア |
|---|---|
| GPT-5.1(high) | 43% |
| Grok 4 | 38% |
| GPT-5 Codex(high) | 36% |
| Claude 4.5 Sonnet | 33% |
| DeepSeek V3.2 Exp | 29% |
| Kimi K2 Thinking | 29% |
| Claude 4.5 Haiku | 26% |
| Gemini 2.5 Pro | 25% |
| MiniMax-M2 | 24% |
| GLM-4.6 | 23% |
| Kimi K2 0905 | 23% |
| gpt-oss-120B(high) | 22% |
2. 𝜏²-Bench Telecom(エージェンティックツール使用) 🔧
| モデル名 | スコア |
|---|---|
| Kimi K2 Thinking | 93% |
| GPT-5 Codex(high) | 87% |
| MiniMax-M2 | 87% |
| GPT-5.1(high) | 82% |
| Claude 4.5 Sonnet | 78% |
| Grok 4 | 75% |
| Kimi K2 0905 | 73% |
| GLM-4.6 | 71% |
| Apriel-v1.5-15B-Thinker | 68% |
| gpt-oss-120B(high) | 66% |
| Grok 4 Fast | 66% |
| gpt-oss-20B(high) | 60% |
3. AA-LCR(長文コンテキスト推論) 💡
| モデル名 | スコア |
|---|---|
| GPT-5.1(high) | 75% |
| Claude 4.5 Haiku | 70% |
| GPT-5 Codex(high) | 69% |
| DeepSeek V3.2 Exp | 69% |
| Grok 4 | 68% |
| Qwen3 235B A22B 2507 | 67% |
| Kimi K2 Thinking | 66% |
| Gemini 2.5 Pro | 66% |
| Claude 4.5 Sonnet | 66% |
| Grok 4 Fast | 65% |
| Gemini 2.5 Flash(Sep) | 64% |
| MiniMax-M2 | 61% |
4. Humanity's Last Exam(推論と知識) ⚠️
| モデル名 | スコア |
|---|---|
| GPT-5.1(high) | 26.5% |
| GPT-5 Codex(high) | 25.6% |
| Grok 4 | 23.9% |
| Kimi K2 Thinking | 22.3% |
| Gemini 2.5 Pro | 21.1% |
| gpt-oss-120B(high) | 18.5% |
| Claude 4.5 Sonnet | 17.3% |
| Grok 4 Fast | 17.0% |
| Qwen3 235B A22B 2507 | 15.0% |
| DeepSeek R1 0528 | 14.9% |
5. MMLU-Pro(推論と知識)
| モデル名 | スコア |
|---|---|
| Claude 4.5 Sonnet | 88% |
| GPT-5.1(high) | 87% |
| Grok 4 | 87% |
| GPT-5 Codex(high) | 87% |
| Gemini 2.5 Pro | 86% |
| DeepSeek V3.2 Exp | 85% |
| Grok 4 Fast | 85% |
| DeepSeek R1 0528 | 85% |
| Kimi K2 Thinking | 85% |
| Qwen3 235B A22B 2507 | 84% |
6. GPQA Diamond(科学的推論)
| モデル名 | スコア |
|---|---|
| Grok 4 | 88% |
| GPT-5.1(high) | 87% |
| Grok 4 Fast | 85% |
| Gemini 2.5 Pro | 84% |
| Kimi K2 Thinking | 84% |
| GPT-5 Codex(high) | 84% |
| Claude 4.5 Sonnet | 83% |
| DeepSeek R1 0528 | 81% |
| DeepSeek V3.2 Exp | 80% |
| Gemini 2.5 Flash(Sep) | 79% |
7. LiveCodeBench(コーディング)
| モデル名 | スコア |
|---|---|
| gpt-oss-120B(high) | 88% |
| GPT-5.1(high) | 87% |
| Kimi K2 Thinking | 85% |
| GPT-5 Codex(high) | 84% |
| Grok 4 Fast | 83% |
| MiniMax-M2 | 83% |
| Grok 4 | 82% |
| Gemini 2.5 Pro | 80% |
| DeepSeek V3.2 Exp | 79% |
| Qwen3 235B A22B 2507 | 79% |
8. SciCode(コーディング)
| モデル名 | スコア |
|---|---|
| Grok 4 | 46% |
| Claude 4.5 Sonnet | 45% |
| Grok 4 Fast | 44% |
| GPT-5.1(high) | 43% |
| Claude 4.5 Haiku | 43% |
| Gemini 2.5 Pro | 43% |
| Kimi K2 Thinking | 42% |
| Qwen3 235B A22B 2507 | 42% |
| GPT-5 Codex(high) | 41% |
| Gemini 2.5 Flash(Sep) | 41% |
9. IFBench(指示追従)
| モデル名 | スコア |
|---|---|
| GPT-5 Codex(high) | 74% |
| GPT-5.1(high) | 73% |
| MiniMax-M2 | 72% |
| gpt-oss-120B(high) | 69% |
| Kimi K2 Thinking | 68% |
| gpt-oss-20B(high) | 65% |
| Apriel-v1.5-15B-Thinker | 62% |
| Claude 4.5 Sonnet | 57% |
| Claude 4.5 Haiku | 54% |
| DeepSeek V3.2 Exp | 54% |
10. AIME 2025(競技数学)
| モデル名 | スコア |
|---|---|
| GPT-5 Codex(high) | 99% |
| Kimi K2 Thinking | 95% |
| GPT-5.1(high) | 94% |
| gpt-oss-120B(high) | 93% |
| Grok 4 | 93% |
| Qwen3 235B A22B 2507 | 91% |
| Grok 4 Fast | 90% |
| gpt-oss-20B(high) | 89% |
| Claude 4.5 Sonnet | 88% |
| Gemini 2.5 Pro | 88% |
Intelligence Index比較分析
インテリジェンス vs. 価格
Artificial Analysis Intelligence Index; 価格:100万トークンあたりのUSD
333モデル中23モデルを表示
最も魅力的な象限:
価格とインテリジェンスのバランスを示すグラフでは、以下のようなモデルの分布が確認できます:
- 高インテリジェンス・高価格帯: GPT-5.1(high)、Grok 4、Claude 4.5 Sonnet
- 高インテリジェンス・中価格帯: Kimi K2 Thinking、Gemini 2.5 Pro
- 中インテリジェンス・低価格帯: Gemini 2.5 Flash(Sep)、DeepSeek V3.2 Exp、Llama 4 Maverick
価格品質の変動
高インテリジェンスモデルは通常より高価ですが、すべてが同じ価格品質曲線に従うわけではありません。一部のモデルは、コストパフォーマンスにおいて優れた価値を提供しています。
Intelligence Indexトークン使用量とコスト
Intelligence Indexトークン使用量
Artificial Analysis Intelligence Indexを実行するために使用された出力トークン数
すべての評価を実行するために使用されたトークン数(333モデル中23モデル)
| モデル名 | 合計トークン | 回答トークン | 推論トークン |
|---|---|---|---|
| Kimi K2 Thinking | 140M | 130M | 10M(推定) |
| Grok 4 | 120M | 120M | - |
| MiniMax-M2 | 120M | 110M | 10M(推定) |
| gpt-oss-120B(high) | 110M | 110M | - |
| Apriel-v1.5-15B-Thinker | 110M | 110M | - |
| Llama Nemotron Super 49B v1.5 | 110M | 100M | 10M(推定) |
| Qwen3 235B A22B 2507 | 110M | 100M | 10M(推定) |
| EXAONE 4.0 32B | 100M | 96M | 4M(推定) |
| Gemini 2.5 Pro | 100M | 89M | 11M(推定) |
| DeepSeek R1 0528 | 99M | 91M | 8M(推定) |
Intelligence Indexコスト
Artificial Analysis Intelligence Indexを実行するためのコスト(USD)
すべての評価を実行するためのコスト(333モデル中23モデル)
| モデル名 | 合計コスト |
|---|---|
| Grok 4 | $1,888 |
| Gemini 2.5 Pro | $1,068 |
| Qwen3 235B A22B 2507 | $934 |
| GPT-5.1(high) | $859 |
| GPT-5 Codex(high) | $829 |
| Claude 4.5 Sonnet | $817 |
| Magistral Medium 1.2 | $497 |
| DeepSeek R1 0528 | $440 |
コンテキストウィンドウ分析
インテリジェンス vs. コンテキストウィンドウ
コンテキストウィンドウ:トークン上限(数値が高いほど優れています)
333モデル中23モデル
| モデル名 | コンテキストウィンドウ |
|---|---|
| Grok 4 Fast | 2.00M |
| Llama 4 Maverick | 1.00M |
| Kimi K2 Thinking | 1.00M |
| Kimi K2 0905 | 1.00M |
| Qwen3 235B A22B 2507 | 1.00M |
| MiniMax-M2 | 400k |
| Claude 4.5 Haiku | 400k |
| GLM-4.6 | 400k |
| gpt-oss-20B(high) | 256k |
| gpt-oss-120B(high) | 256k |
| EXAONE 4.0 32B | 256k |
| Magistral Medium 1.2 | 256k |
| DeepSeek R1 0528 | 205k |
| DeepSeek V3.2 Exp | 200k |
| Llama Nemotron Super 49B v1.5 | 200k |
| Apriel-v1.5-15B-Thinker | 131k |
| Gemini 2.5 Flash(Sep) | 131k |
| Gemini 2.5 Pro | 128k |
| Claude 4.5 Sonnet | 128k |
| GPT-5.1 | 128k |
| GPT-5.1(high) | 128k |
| GPT-5 Codex(high) | 128k |
| Grok 4 | 128k |
コンテキストウィンドウとRAGワークフロー 🤖
より大きなコンテキストウィンドウは、RAG(Retrieval Augmented Generation)を活用したLLMワークフローにおいて重要な役割を果たします。これらのワークフローでは、通常、膨大なデータの推論と情報検索が伴います。
コンテキストウィンドウとは:
入力トークンと出力トークンを合わせた最大数。出力トークンは通常、モデルによって異なりますが、入力トークンよりも大幅に低い制限があります。
価格設定 💰
入力・出力価格
価格:100万トークンあたりのUSD
333モデル中23モデル
| モデル名 | 入力価格 ($) | 出力価格 ($) |
|---|---|---|
| gpt-oss-20B(high) | 0.06 | 0.20 |
| Llama Nemotron Super 49B v1.5 | 0.10 | 0.40 |
| DeepSeek V3.2 Exp | 0.28 | 0.42 |
| Grok 4 Fast | 0.20 | 0.50 |
| gpt-oss-120B(high) | 0.15 | 0.60 |
| Llama 4 Maverick | 0.27 | 0.85 |
| MiniMax-M2 | 0.30 | 1.20 |
| EXAONE 4.0 32B | 0.60 | 1.00 |
| GLM-4.6 | 0.60 | 2.20 |
| Gemini 2.5 Flash(Sep) | 0.30 | 2.50 |
| Kimi K2 Thinking | 0.60 | 2.50 |
| Kimi K2 0905 | 0.99 | 2.50 |
| DeepSeek R1 0528 | 1.35 | 4.00 |
| Claude 4.5 Haiku | 1.00 | 5.00 |
| Magistral Medium 1.2 | 2.00 | 5.00 |
| Qwen3 235B A22B 2507 | 0.70 | 8.40 |
| GPT-5.1 | 1.25 | 10.00 |
| GPT-5.1(high) | 1.25 | 10.00 |
| GPT-5 Codex(high) | 1.25 | 10.00 |
| Gemini 2.5 Pro | 1.25 | 10.00 |
| Claude 4.5 Sonnet | 3.00 | 15.00 |
| Grok 4 | 3.00 | 15.00 |
入力価格について:
APIに送信されるリクエスト/メッセージに含まれるトークンあたりの価格。100万トークンあたりのUSDで表示されます。
速度分析 🚀
出力速度
1秒あたりの出力トークン数(高いほど良い)
333モデル中23モデル
| モデル名 | 出力速度 (t/s) |
|---|---|
| gpt-oss-120B(high) | 350 |
| Gemini 2.5 Flash(Sep) | 267 |
| gpt-oss-20B(high) | 239 |
| Grok 4 Fast | 223 |
| GPT-5.1(high) | 196 |
| Gemini 2.5 Pro | 148 |
| Apriel-v1.5-15B-Thinker | 144 |
| GPT-5 Codex(high) | 131 |
| GPT-5.1 | 125 |
| Llama 4 Maverick | 121 |
| GLM-4.6 | 109 |
| MiniMax-M2 | 99 |
| Magistral Medium 1.2 | 94 |
| EXAONE 4.0 32B | 92 |
| Kimi K2 Thinking | 84 |
| Qwen3 235B A22B 2507 | 82 |
| Llama Nemotron Super 49B v1.5 | 72 |
| Claude 4.5 Sonnet | 62 |
| Kimi K2 0905 | 60 |
| Claude 4.5 Haiku | 52 |
| Grok 4 | 39 |
| DeepSeek V3.2 Exp | 28 |
出力速度について:
モデルがトークンを生成している間に1秒あたりに受信されるトークン数(つまり、ストリーミングをサポートするモデルの場合、APIから最初のチャンクが受信された後)。
レイテンシ分析 ⚡
最初の回答トークンまでの時間
最初の回答トークンを受信するまでの秒数(低いほど良い)
333モデル中23モデル
| モデル名 | レイテンシ (秒) | 思考時間 (秒) |
|---|---|---|
| Kimi K2 0905 | 0.5 | - |
| Llama 4 Maverick | 0.6 | - |
| GPT-5.1 | 0.7 | - |
| Grok 4 Fast | 3.1 | - |
| gpt-oss-120B(high) | 6.2 | - |
| Grok 4 | 6.7 | - |
| gpt-oss-20B(high) | 8.7 | - |
| Gemini 2.5 Flash(Sep) | 13.9 | - |
| Apriel-v1.5-15B-Thinker | 14.1 | - |
| GLM-4.6 | 18.9 | - |
| GPT-5.1(high) | 20.2 | 8.4 |
| MiniMax-M2 | 21.4 | 13.9 |
| Magistral Medium 1.2 | 21.8 | - |
| EXAONE 4.0 32B | 22.1 | - |
| Kimi K2 Thinking | 24.4 | 18.4 |
| Qwen3 235B A22B 2507 | 25.5 | 20.3 |
| GPT-5 Codex(high) | 26.0 | 21.3 |
| Llama Nemotron Super 49B v1.5 | 28.0 | 21.8 |
| Claude 4.5 Sonnet | 34.2 | 23.8 |
| Gemini 2.5 Pro | 38.0 | 24.3 |
| Claude 4.5 Haiku | 39.1 | 27.8 |
| DeepSeek V3.2 Exp | 73.1 | 71.9 |
最初の回答トークンまでの時間について:
APIリクエスト送信後、最初の回答トークンを受信するまでの時間(秒)。推論モデルの場合、これには回答を提供する前のモデルの「思考」時間が含まれます。
エンドツーエンド応答時間
500トークンを出力するまでの秒数(低いほど良い)
333モデル中23モデル
| モデル名 | 合計時間 (秒) | 思考時間 (秒) | 入力処理 (秒) | 出力時間 (秒) |
|---|---|---|---|---|
| Llama 4 Maverick | 4.7 | - | - | 4.7 |
| GPT-5.1 | 4.7 | - | - | 4.7 |
| Grok 4 Fast | 5.3 | - | - | 5.3 |
| gpt-oss-120B(high) | 7.6 | - | - | 7.6 |
| Kimi K2 0905 | 8.9 | - | - | 8.9 |
| gpt-oss-20B(high) | 10.8 | - | - | 10.8 |
| Gemini 2.5 Flash(Sep) | 15.8 | - | 13.9 | - |
| Apriel-v1.5-15B-Thinker | 17.6 | - | - | 17.6 |
| Grok 4 | 19.7 | - | - | 19.7 |
| GPT-5.1(high) | 22.7 | 20.2 | - | - |
| GLM-4.6 | 23.5 | - | 18.0 | - |
| MiniMax-M2 | 26.5 | 26.0 | - | - |
| Magistral Medium 1.2 | 27.1 | - | - | 27.1 |
| EXAONE 4.0 32B | 27.6 | - | - | 27.6 |
| GPT-5 Codex(high) | 29.8 | - | - | 29.8 |
| Kimi K2 Thinking | 30.4 | - | - | 30.4 |
| Qwen3 235B A22B 2507 | 31.6 | - | - | 31.6 |
| Llama Nemotron Super 49B v1.5 | 35.0 | - | - | 35.0 |
| Gemini 2.5 Pro | 41.4 | 38.0 | - | - |
| Claude 4.5 Sonnet | 42.3 | - | - | 42.3 |
| Claude 4.5 Haiku | 48.7 | - | - | 48.7 |
| DeepSeek V3.2 Exp | 91.1 | 71.9 | - | - |
エンドツーエンド応答時間について:
500トークンの応答を受信するまでの秒数。主要な構成要素:
- 入力時間: 最初の応答トークンを受信するまでの時間
- 思考時間(推論モデルのみ): 推論モデルが回答を提供する前に推論するためにトークンを出力するのに費やす時間
- 回答時間: 出力速度に基づいて500個の出力トークンを生成するまでの時間
モデルサイズ(オープンウェイトモデルのみ) 🔧
総パラメータ数とアクティブパラメータ数
モデルの総パラメータ数と推論時にアクティブなパラメータ数の比較
333モデル中23モデル
| モデル名 | 総パラメータ (B) | アクティブパラメータ (B) | パッシブパラメータ (B) |
|---|---|---|---|
| Kimi K2 Thinking | 1000 | 1000 | - |
| Kimi K2 0905 | 1000 | 1000 | - |
| DeepSeek R1 0528 | 685 | 685 | - |
| DeepSeek V3.2 Exp | 685 | 685 | - |
| Llama 4 Maverick | 402 | 370 | 32 |
| GLM-4.6 | 357 | 325 | 32 |
| Qwen3 235B A22B 2507 | 235 | 235 | - |
| MiniMax-M2 | 230 | 208 | 22 |
| gpt-oss-120B(high) | 117 | 117 | - |
| Llama Nemotron Super 49B v1.5 | 49 | 39 | 10 |
| EXAONE 4.0 32B | 32 | 27 | 5 |
| gpt-oss-20B(high) | 21 | 17 | 4 |
| Apriel-v1.5-15B-Thinker | 15 | 15 | - |
用語解説:
-
総パラメータ数: モデル内の訓練可能な重みとバイアスの総数を10億単位で表現したもの。これらのパラメータはトレーニング中に学習され、モデルが応答を処理および生成する能力を決定します。
-
推論時のアクティブパラメータ数: 各推論フォワードパス中に実際に実行されるパラメータの数を10億単位で表現したもの。Mixture of Experts(MoE)モデルの場合、ルーティングメカニズムがトークンごとにエキスパートのサブセットを選択するため、アクティブパラメータは総パラメータよりも少なくなります。デンスモデルはすべてのパラメータを使用するため、アクティブパラメータは総パラメータと等しくなります。
まとめ
この包括的な分析により、各AIモデルの強みと弱みが明確になりました。モデル選択の際は、以下の要素を考慮してください:
- インテリジェンス要件: タスクの複雑さに応じて適切なモデルを選択
- 予算制約: コストパフォーマンスのバランスを評価
- 速度要件: リアルタイム応答が必要かバッチ処理で十分か
- コンテキストサイズ: 処理する必要のあるデータ量
- 専門性: 特定のタスク(コーディング、推論、ツール使用など)における性能
最適なモデルは、ユースケースによって異なります。この分析データを活用して、ニーズに最適なモデルを選択してください。
