「どれだけ難しい問題が解けるか」で語られてきたAI評価が、2026年に入り大きく舵を切った。Artificial Analysis がリリースした Intelligence Index v4.0 は、従来の学術ベンチマークを手放し、「実社会での経済的有用性」を測る新たな指標へと軸足を移している。本記事では、この転換の背景にあるベンチマーク飽和とデータ汚染、そして新たに導入されたGDPval-AA・AA-Omniscience・CritPtの意味を、IT技術者が実装やモデル選定に活かせるように、文章を中心に整理する。数値は公式リーダーボードで変動するため、必要に応じて Artificial Analysis の公式サイト で最新を確認することをおすすめする。
参照:Artificial Analysis - AI Model & API Providers Analysis、DeepLearning.AI The Batch - Independent AI Testing Authority
なぜ「知能指数」の測り方が変わったのか
v4.0を理解するには、その前に起きていた「測定の危機」を押さえておく必要がある。長年、MMLU(Massive Multitask Language Understanding)やGSM8Kといったテストは、大規模言語モデル(LLM)の性能を測るゴールドスタンダードとして使われてきた。ところがモデルの進化が速く、いまや最先端モデル同士のスコアがどんどん天井に近づいている。Artificial Analysis のデータでは、削除されたAIME 2025(競技数学)において、GPT-5.2が96.88%、Gemini 3 Pro Previewが96.68%というスコアを記録しており、その差は0.2%程度で統計的な誤差の範囲だ。MMLU-Proでも、Gemini 3 Pro Previewが90.1%を記録するなど、上位モデルが軒並み満点に近い「飽和状態」に達しており、もはやどれが優れているかを判別する指標として機能しなくなっていた。
参照:Artificial Analysis - Intelligence Index、Together AI - How to evaluate and benchmark LLMs
この飽和をさらに複雑にしているのが「データ汚染」である。現代のLLMはインターネット上の膨大なテキストを学習しており、その中にはオープンソースで公開されているベンチマークの問題と回答が含まれている可能性が高い。すると、モデルが論理的に推論して解いているのではなく、学習データ内の文字列を記憶して再生しているに過ぎない、という疑いが生じる。研究コミュニティでは、汚染を「意味レベル(問題と同一・派生的な内容への接触)」「情報レベル(評価にバイアスを与える関連情報への接触)」「ラベルレベル(問題と正解のペアそのものへの接触)」のように整理している。実際、公開済みのGSM8Kと未公開に近いGSM1Kでモデル性能を比較した調査では、多くのモデルでGSM1Kのスコアが著しく低下することが報告されており、既存の高スコアが「カンニング」に近い状態だった可能性が示唆されている。
参照:arXiv - Benchmark Data Contamination of Large Language Models: A Survey、LXT AI - LLM benchmarks in 2025
こうした状況を打破するため、v4.0では従来の指標の一部を削除し、新しい評価軸を追加するドラスティックな変更が行われた。MMLU-Proは一般知識問題として上位モデルで90%を超え飽和しており、学習データ汚染のリスクも高いとして削除された。AIME 2025は競技数学だが、数値回答形式(0〜999の整数)が総当たりや過学習に弱く、トップモデル間の差がつかなくなったため削除された。LiveCodeBenchは競技プログラミング(LeetCode等)だが、GitHub上のコードに含まれる頻度が高く、実務的な開発能力よりもアルゴリズムの暗記に偏るとして削除された。代わりに、ドキュメント作成やスプレッドシート操作など経済的価値のある実務遂行能力を測る GDPval-AA、ハルシネーションを厳しくペナルティし「知らない」と言う能力も測る AA-Omniscience、そして未公開の物理学博士レベル問題で高度な推論力を測る CritPt が採用された。つまり、モデルは「知識を再生するだけ」ではなく、道具を使い、推論し、自身の知識の限界を認識する能力まで問われる設計に変わったのである。
参照:Artificial Analysis - Intelligence Benchmarking Methodology、Reddit r/LocalLLaMA - Artificial Analysis refresh
v4.0の設計思想——「チャットボット」から「労働力」へ
Intelligence Index v4.0は、単一のテストではなく、複数の評価軸を統合した複合指標である。公式メソドロジーでは、Agents(エージェント・実務)、Coding(コーディング)、Scientific Reasoning(科学的推論)、General Knowledge(一般知識)の4カテゴリがそれぞれ25%ずつの重みで扱われるとされている。この構成は、AIモデルを「学術的な賢さ」ではなく「企業の従業員としての有用性」に近い形で評価する意図を反映している。アルゴリズムコーディング(LiveCodeBench)を外し、ターミナル操作(Terminal-Bench Hard)や実務タスク(GDPval-AA)を重視する変更は、モデルが「計算だけする存在」から「OSやブラウザを操作する存在」へと扱われ方を変えたことを示している。
参照:Artificial Analysis - Intelligence Benchmarking
評価はすべてゼロショットで行われる。モデルには事前に解答例やヒントは与えられない。ツール実行を伴うタスクでは、BashターミナルとWebブラウザへのアクセスのみが付与され、実際の開発者やデータアナリストが置かれる環境に近い形で、自律的にコマンドを実行し、エラーを修正し、ウェブから情報を取得してタスクを完遂できるかが試される。この厳格な環境設定は、ベンチマーク設計において「天井効果」を避け、識別力を保つための教科書的な事例とも言える。
GDPval-AA——「オフィスワーカー」としてのAIを測る
v4.0における最大の革新のひとつが、GDPval-AA の導入である。OpenAIのGDPvalデータセットに基づき、Artificial Analysisが構築した評価フレームワークで、AIモデルを「オフィスワーカー」として評価する本格的な試みとなっている。44の職種と9つの主要産業(金融、医療、法務など)にわたる実世界のタスクで、モデルは単に質問に答えるのではなく、報告書・企画書といったドキュメント、財務分析やデータ集計のスプレッドシート、図表・ダイアグラム、スライド資料といった成果物を生成することが求められる。評価は「エージェンティック・ループ」のなかで行われ、モデルはシェルアクセスやブラウジングを通じて情報を収集・加工する。採点にはチェス等で用いられるイロレーティング(Elo Rating)が使われ、2つのモデルが同じプロンプトに対して成果物を作り、それをGemini 3 Proが判定者(Judge)として「勝ち・負け・引き分け」で比較する仕組みだ。
参照:Artificial Analysis - GDPval-AA Leaderboard、OpenAI - GDPval
このベンチマークで高いスコアを出すことは、そのモデルが企業の生産性向上に直結する能力を持っていることを示唆する。公開されているリーダーボードでは、GPT-5.2(Extra High Reasoning設定)が首位クラスで、複雑な指示を理解し複数のツールを組み合わせて高品質な成果物を作る能力で他をリードしている。Claude Opus 4.5はそれに肉薄し、長文生成やニュアンスの理解で高い実務能力を示している。オープンウェイトモデルではGLM-4.7がトップクラスだが、プロプライエタリモデルとのあいだには依然としてスコアの差があり、「実務能力の壁」として議論されている。企業がAIを、チャットボットではなく四半期決算資料の下書き作成のような具体的業務の代行に使う場合、GDPval-AAの結果はモデル選定の重要な参考になる。なお、Eloスコアはベンチマークの再計算やモデル更新により変動するため、採用時には公式リーダーボードで最新値を確認することを推奨する。
参照:Artificial Analysis - GDPval-AA
AA-Omniscience——「知ったかぶり」に厳しい採点
GDPval-AAが「できること」を測るのに対し、AA-Omniscience は「信頼性」と「認識論的謙虚さ」を測る。企業利用で最も怖いのは、もっともらしい嘘(ハルシネーション)を自信満々に出力することだ。このベンチマークは、そのリスクに正面から向き合う設計になっている。
参照:Artificial Analysis - AA-Omniscience、arXiv - AA-Omniscience
採点ロジックは従来の「正解数」競争とは根本的に異なる。スコアはおおむね-100〜100の範囲で、正解ならプラス、ハルシネーション(虚偽情報の生成)ならマイナス、回答拒否(Refusal)なら0ポイントとなる。つまり「自信がないときは答えない」戦略(Calibrated Refusal)が推奨され、不正確な情報を出すことは、何も言わないことより悪い、という金融・医療などのハイステークスな倫理観が反映されている。結果は衝撃的で、現状の最先端モデルでも「有用性と真実性のトレードオフ」がはっきり表れている。ある時点の報告では、Gemini 3 Pro Previewは正解率ではトップクラスだが、不正解時のハルシネーション率が極めて高く、積極的だが危うい振る舞いが指摘されている。一方、Claude Opus 4.5は正解率は低めだがハルシネーション率も低く、「分からない」と判断する傾向が強く安全性が高いとされる。0点を超えられたモデルはごく少数であり、多くのモデルは正解よりも嘘の数が多く、信頼に足る水準に達していない。企業で判例検索や医療診断支援のように正確性が絶対条件となるユースケースでは、現状のモデルにも人間による検証(Human-in-the-loop)が欠かせないことを、このデータは数値で示している。
CritPt——誰も解いたことのない問題で「推論」を試す
GDPval-AAが「事務員」、AA-Omniscienceが「司書」の能力に近いとすれば、CritPt は「博士研究員」レベルの能力を試すベンチマークである。AIが学習データのパターンマッチではなく、真の意味での推論(Reasoning)ができるかを問う、いまのところ最も過酷な試験のひとつだ。
参照:Artificial Analysis - CritPt Benchmark、arXiv - CritPt (2509.26574)
CritPtは、50名以上の現役物理学研究者によって新規に作成された、71問の未公開・研究レベルの物理課題で構成されている。問題がインターネット上に存在しないため、2025年後半時点までのいかなるモデルの学習データにも含まれておらず、データ汚染が物理的に起こりえない設計になっている。回答形式は浮動小数点配列やPython関数、数式などであり、多肢選択のようにまぐれで正解することは難しい。単発の計算ではなく、実際の研究プロジェクトに近い複合的な思考ステップが求められる。このテストでは、現在のフロンティアモデルでも正解率は1割前後に留まる。GPT-5.2が約11.6%、Gemini 3 Pro Previewが約9.1%、Claude Opus 4.5が約4.6%といった報告があり、多くのモデルは0%である。AIME(高校数学)で97%に近いスコアを出すモデルが、CritPt(大学院物理)では1割前後しか取れないという事実は、AIが「既知のパターンの適用」には長けていても、「未知の事象に対する第一原理的な推論」にはまだ大きな壁があることを示している。AGI(汎用人工知能)への道のりが、データのスケーリングだけでは到達できない可能性を、CritPtは示唆している。
参照:Artificial Analysis - CritPt、Quantum Zeitgeist - CritPt benchmark
フロンティアモデルの立ち位置——総合スコアの「使い方」
v4.0の総合スコア(全テストの加重平均)に基づくと、現時点のフロンティアモデルの立ち位置はおおむね次のように整理できる。GPT-5.2は総合スコアでトップクラスにあり、Extra High Reasoning設定ではエージェント能力(GDPval)と純粋推論(CritPt)の両方で上位に立っている。複雑な指示待ちタスクや未知の領域での問題解決で、いまのところ最も信頼性が高いとされる。Claude Opus 4.5はそれに次ぎ、コーディングやドキュメント作成で高い能力を持ち、AA-Omniscienceの分析からハルシネーション率が相対的に低いとされ、安全性を重視する企業環境や誤りが許されないシステム開発に向くという評価がある。Gemini 3 Pro Previewは知識の幅と検索能力で強みを持つ一方、誤答時のハルシネーション率が高いという指摘があり、利用時にはファクトチェックを組み込んだ運用が推奨される。GLM-4.7はオープンウェイトモデルとしてトップクラスで、総合スコアやGDPvalのEloではプロプライエタリモデルより下回るが、無料で利用・改変できるモデルとしては高い水準にあり、リソース制約やオンプレミス環境での選択肢として注目されている。スコアの具体的な数値は公式発表や再計算で変動するため、Artificial Analysis の Intelligence Index で最新を確認するのがよい。
参照:Artificial Analysis - Claude Opus 4.5 (Reasoning) Analysis、Medium - ChatGPT 5.2 vs Gemini 3 vs Claude Opus 4.5
業界の声——「知能」か「事務適性」か
v4.0のリリースは称賛だけでなく、とくにオープンソースや開発者コミュニティからは批判もある。Redditのr/LocalLLaMAなどを中心に、「このインデックスはもはや『知能』ではなく『事務員としての適性』を測っているに過ぎない」という指摘がある。エージェント系タスクやターミナル操作への重みが大きいため、JSON形式のツール呼び出し(Function Calling)に過剰適合した企業製モデルが有利になり、純粋な論理思考力や創造性が高くても、特定のAPI作法に従っていないだけで低く評価される、という見方だ。また、LiveCodeBench(アルゴリズム問題)が削除されTerminal-Bench Hard(コマンドライン操作)が重視されたことについては、「バブルソートが書けるか」より「AWSのCLIでサーバーを再起動できるか」を重視する変更であり、AIを「プログラマー」ではなく「システム管理者(DevOps)」として見る傾向を強めている、という意見がある。経済的価値の観点では筋が通っていても、計算機科学的な「知能」の測定としては偏りがある、という指摘も理解しておくと、モデル選定やベンチマーク解釈の幅が広がる。
参照:Reddit r/LocalLLaMA - Artificial Analysis refresh
技術者としてどう向き合うか——まとめに代えて
Artificial Analysis Intelligence Index v4.0は、AI評価が「学術的な試験性能」から「実社会での経済的有用性」へとシフトしたことを象徴している。「どれだけ難しい数学が解けるか」という競争から、「どれだけ稼げる仕事ができるか」を測る競争へ、基準が移り始めたのである。
実務の観点では、総合スコアひとつでモデルを選ぶのではなく、タスクに応じて指標を見るのが有効だ。研究開発や複雑な推論ならCritPtで強いモデル、文書作成や定型業務ならGDPvalとコストのバランスでClaude Opus 4.5を検討する、知識検索やQ&AではOmniscienceで上位のGemini 3 Proを使いつつ必ず人間による検証を入れる、といった使い分けが現実的である。また、AIMEの飽和が示すように、公開ベンチマークは1〜2年で識別力を失う可能性がある。企業では公開スコアを鵜呑みにせず、自社データを使ったプライベートな評価セット(CritPtのように汚染のない設計を参考に)を用意しておくことが、中長期では重要になる。AA-Omniscienceの結果は、最高スコアでも十分に高いとは言えず、AIの自律性を過信せず、当面は「監視付きのエージェント」として運用する設計が求められることを数値が示している。
AIモデルは、もはや「神託」のように振る舞う存在ではなく、「同僚」のように成果物を作り、知らないことは知らないと言い、誰も解いたことのない問題に挑む存在として評価され始めている。v4.0は、その凸凹のある能力プロファイルを可視化し、過剰な期待を抑えつつ経済的価値を最大化するための羅針盤として、IT技術者がモデル選定や評価設計を考えるうえで役立つだろう。あわせて、「AIエージェントが変えるビジネスの未来」 や 「開発者が実装するAIエージェント・ワークフロー」 といった記事で、エージェントやワークフローの実装面を押さえておくと、ベンチマークの意味を業務設計に落とし込みやすくなる。
参照:Artificial Analysis - Intelligence Index
作成日:2026年1月31日