はじめに
2026年3月24日、ARC Prize FoundationがARC-AGI-3を公開しました。このベンチマークは、現在の最先端AIが「本当の意味で人間のように考えられるか」を測定するための新しい指標です。
結果は衝撃的でした。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview、Grok-4.20といったフロンティアモデルがすべて1%未満のスコアしか達成できなかった一方、テストした135環境すべてを事前知識なしで解いたのは人間でした。
この記事では、ARC-AGI-3の設計思想、スコアリング方式、各AIモデルの結果、そして今後のAGI研究への示唆について解説します。
この記事で学べること
- ARC-AGI-3の設計思想と従来版との違い
- RHAEスコアリングの仕組みと数式
- フロンティアモデルのベンチマーク結果(数値付き)
- なぜ現在のLLMはこのベンチマークで低スコアなのか
- ARC Prize 2026コンペへの参加方法
対象読者
- AIモデルの評価・比較に興味があるエンジニア
- AGI研究の最新動向を追いたい方
- LLMベンチマークの設計に興味がある方
TL;DR
- ARC-AGI-3はインタラクティブ推論ベンチマーク:静的なパズルではなく、未知の環境でゴールを自律探索する能力を測定
- フロンティアモデルのスコア:Gemini 3.1 Pro 0.37%、GPT-5.4 0.26%、Opus 4.6 0.25%、Grok-4.20 0.00%
- 単純なCNN+グラフ探索が**12.58%**でトップ(プレビュー期)
- スコア指標はRHAE:
(人間の行動数 / AIの行動数)² - ARC Prize 2026で**$2Mの賞金**(Kaggleで参加可能)
ARC-AGI-3とは何か
ARC-AGI-1/2からの進化
ARC(Abstraction and Reasoning Corpus)は、François Cholletが提唱した「人間の知能の公正なテスト」を目的とするベンチマークシリーズです。
| バージョン | 形式 | 特徴 |
|---|---|---|
| ARC-AGI-1 | 静的パズル | 入力→出力のグリッド変換 |
| ARC-AGI-2 | 静的パズル(難化) | より複雑なルール推論 |
| ARC-AGI-3 | インタラクティブゲーム | 探索・仮説・実行のサイクル |
ARC-AGI-3の最大の革新点は「インタラクティブ性」です。AIはもはや静的な問題を解くのではなく、未知の環境に置かれ、自ら探索してルールを発見し、ゴールを推測して行動しなければなりません。
"As long as there is a gap between AI and human learning, we do not have AGI."
— ARC Prize Foundation(公式サイト)
4つの評価能力
ARC-AGI-3が測定するのは以下の4能力です:
- 探索(Exploration):環境を積極的に調べ、情報を収集する
- モデリング(Modeling):環境の動作原理を内部的にマッピングする
- ゴール設定(Goal-Setting):指示なしに何を目指すべきかを推測する
- 計画(Planning):戦略を立て、状況変化に応じて修正する
すべての環境はナチュラルランゲージの指示が一切なく、AIは純粋に「観察と行動」だけで学習しなければなりません。
RHAEスコアリングの仕組み
指標の定義
ARC-AGI-3は**RHAE(Relative Human Action Efficiency)**という新しいスコアリング指標を採用しています。
RHAE = (人間の行動数 / AIの行動数)²
具体例:
- 人間が10アクションでクリア、AIも10アクションでクリア → RHAE = (10/10)² = 100%
- 人間が10アクション、AIが100アクション → RHAE = (10/100)² = 1%(10倍非効率なのに1%しか得られない)
- 人間が10アクション、AIが1000アクション → RHAE = (10/1000)² = 0.01%
なぜ二乗するのか
二乗することで、非効率なブルートフォース解法を強く不利にする設計になっています。10倍の行動数を要するAIは10%ではなく1%しか得られません。これにより、「力技で正解にたどり着く」方式では高スコアが取れない仕組みになっています。
人間ベースラインは、各環境につき初見プレイヤー10人の中で2番目に良いパフォーマンスを基準としています。極端な外れ値を除外しつつ、リアルな人間の実力を反映するためです。
フロンティアモデルのベンチマーク結果
モデルスコア一覧
公開されている結果は以下の通りです(出典:The Decoder):
| モデル | スコア(RHAE) | 特記事項 |
|---|---|---|
| Gemini 3.1 Pro Preview | 0.37% | フロンティアモデル最高スコア |
| GPT-5.4 | 0.26% | OpenAI最新フロンティアモデル |
| Claude Opus 4.6 | 0.25% | Anthropic最新フラッグシップ |
| Grok-4.20 | 0.00% | xAI製フロンティアモデル |
| CNN + グラフ探索(プレビュー) | 12.58% | アルゴリズム的アプローチが大差で首位 |
| 人間(未訓練) | ≈100% | 全135環境をクリア |
注目点:単純なCNN(畳み込みニューラルネットワーク)とグラフ探索を組み合わせたシステムが、GPT-5.4やOpus 4.6を約50倍上回るスコアを記録しています。
Duke大学実験:既知環境 vs 未知環境
Duke大学の研究者が構築したカスタムハーネスを用いた実験では、驚くべき結果が得られました:
| 条件 | Claude Opus 4.6のスコア |
|---|---|
| 既知の環境(手作りのハーネスあり) | 97.1% |
| 未知の環境(ハーネスなし) | 0% |
カスタムのスキャフォールディング(特定タスク向けの実行環境)を用いると高スコアが取れますが、それは「本当の汎化能力」ではなく「タスク固有の最適化」です。ARC-AGI-3は正にこの違いを見分けるために設計されています。
なぜ現在のLLMはスコアが低いのか
スケーリングの限界
現在の大規模言語モデルは「次のトークンを予測する」という学習タスクを極限まで最適化しています。しかし、ARC-AGI-3が要求するのは:
- 既存の知識ではなく、その場での学習
- 自然言語の指示ではなく、観察と行動
- 記憶されたパターンではなく、リアルタイムの仮説形成
これらはパラメータを増やすだけでは解決しない問題です。ARC Prize Foundationは「現在の深層学習アプローチはこの種の問題でパフォーマンスの上限に達している可能性がある」と述べています。
アーキテクチャ的な課題
現在のTransformerベースのモデルは、静的な知識の圧縮と再現には優れています。しかし:
- 状態の維持:長いインタラクションシーケンスにわたって一貫した世界モデルを保持すること
- 能動的探索:受動的な情報処理ではなく、能動的に仮説を検証すること
- ゴール推論:明示的な報酬信号なしに目標を推測すること
これらはTransformerが苦手とする領域です。
AGI研究への示唆
「スケーリングではなくアルゴリズム」
ARC-AGI-3のプレビュー段階で最高スコアを記録したのは、パラメータ数が圧倒的に少ないCNN+グラフ探索の組み合わせでした。この事実が示唆するのは:
「ARC-AGI-3を解くカギはモデルのスケールではなく、新しいアルゴリズム的アイデアにある」
これはAI研究の方向性として重要な示唆です。多くの研究者がスケーリング則に依存してきた中、ARC-AGI-3は「異なるアーキテクチャや学習パラダイムが必要だ」というシグナルを発しています。
開発者が注目すべきポイント
- Reinforcement Learning(強化学習):探索・報酬・計画のサイクルはRL的アプローチが有望
- World Models:環境の動作原理を内部表現として持つモデルの重要性
- Continual Learning:既存の知識を忘れずに新しいタスクを学習する能力
- Model-Based Planning:シミュレーションを使った将来の行動計画
ARC Prize 2026 コンペへの参加
賞金構造
ARC Prize 2026の賞金総額は**$2,000,000**です:
| トラック | 総額 | グランプリ |
|---|---|---|
| ARC-AGI-3トラック | $850,000 | $700,000(100%スコアの初達成) |
| ARC-AGI-2 最終年トラック | $700,000 | — |
参加方法
コンペはKaggleでホストされています。
- ARC Prize公式サイトでコンペページを確認
- docs.arcprize.orgでSDKとドキュメントを参照
- 公開ゲームセット(/tasks?v=3)でローカル開発・テスト
- Kaggleに提出
コミュニティリーダーボードではカスタムスキャフォールディングも許容されています。ただし、メインの評価では「自律的な汎化能力」が問われます。
まとめ
ARC-AGI-3は、現在のフロンティアAIモデルが本当の意味での「汎用的な学習能力」を持っているかどうかを問い直す厳格なベンチマークです。
- フロンティアモデルは全て1%未満:GPT-5.4、Opus 4.6、Gemini 3.1 Proなど
- 人間は全環境をクリア:事前知識・指示なしで
- 単純なアルゴリズムが12.58%でリード:スケールより設計が重要
- $2Mの賞金:Kaggleで参加可能
このベンチマークの存在は、「LLMを大きくすればAGIに近づく」という単純な仮定への反証として機能しています。AGIへの道は、既存のアーキテクチャのスケールアップではなく、質的に異なるアプローチが必要かもしれません。
参考リンク
- ARC-AGI-3 公式ページ — ARC Prize Foundation
- ARC-AGI-3 リーダーボード — 最新スコア確認
- ARC-AGI-3 docs & SDK — 開発者向けドキュメント
- ARC-AGI-3 offers $2M to any AI that matches untrained humans — The Decoder(2026-03-27)
- ARC-AGI-3 Released, Gemini 3.1 Pro Top Scores With Just 0.37 Percent — OfficeChai(2026-03-27)