ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

Last updated at 2026-03-27Posted at 2026-03-27

はじめに

2026年3月24日、ARC Prize FoundationがARC-AGI-3を公開しました。このベンチマークは、現在の最先端AIが「本当の意味で人間のように考えられるか」を測定するための新しい指標です。

結果は衝撃的でした。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview、Grok-4.20といったフロンティアモデルがすべて1%未満のスコアしか達成できなかった一方、テストした135環境すべてを事前知識なしで解いたのは人間でした。

この記事では、ARC-AGI-3の設計思想、スコアリング方式、各AIモデルの結果、そして今後のAGI研究への示唆について解説します。

この記事で学べること

ARC-AGI-3の設計思想と従来版との違い
RHAEスコアリングの仕組みと数式
フロンティアモデルのベンチマーク結果（数値付き）
なぜ現在のLLMはこのベンチマークで低スコアなのか
ARC Prize 2026コンペへの参加方法

対象読者

AIモデルの評価・比較に興味があるエンジニア
AGI研究の最新動向を追いたい方
LLMベンチマークの設計に興味がある方

TL;DR

ARC-AGI-3はインタラクティブ推論ベンチマーク：静的なパズルではなく、未知の環境でゴールを自律探索する能力を測定
フロンティアモデルのスコア：Gemini 3.1 Pro 0.37%、GPT-5.4 0.26%、Opus 4.6 0.25%、Grok-4.20 0.00%
単純なCNN+グラフ探索が**12.58%**でトップ（プレビュー期）
スコア指標はRHAE：(人間の行動数 / AIの行動数)²
ARC Prize 2026で**$2Mの賞金**（Kaggleで参加可能）

ARC-AGI-3とは何か

ARC-AGI-1/2からの進化

ARC（Abstraction and Reasoning Corpus）は、François Cholletが提唱した「人間の知能の公正なテスト」を目的とするベンチマークシリーズです。

バージョン	形式	特徴
ARC-AGI-1	静的パズル	入力→出力のグリッド変換
ARC-AGI-2	静的パズル（難化）	より複雑なルール推論
ARC-AGI-3	インタラクティブゲーム	探索・仮説・実行のサイクル

ARC-AGI-3の最大の革新点は「インタラクティブ性」です。AIはもはや静的な問題を解くのではなく、未知の環境に置かれ、自ら探索してルールを発見し、ゴールを推測して行動しなければなりません。

"As long as there is a gap between AI and human learning, we do not have AGI."
— ARC Prize Foundation（公式サイト）

4つの評価能力

ARC-AGI-3が測定するのは以下の4能力です：

探索（Exploration）：環境を積極的に調べ、情報を収集する
モデリング（Modeling）：環境の動作原理を内部的にマッピングする
ゴール設定（Goal-Setting）：指示なしに何を目指すべきかを推測する
計画（Planning）：戦略を立て、状況変化に応じて修正する

すべての環境はナチュラルランゲージの指示が一切なく、AIは純粋に「観察と行動」だけで学習しなければなりません。

RHAEスコアリングの仕組み

指標の定義

ARC-AGI-3は**RHAE（Relative Human Action Efficiency）**という新しいスコアリング指標を採用しています。

RHAE = (人間の行動数 / AIの行動数)²

具体例：

人間が10アクションでクリア、AIも10アクションでクリア → RHAE = (10/10)² = 100%
人間が10アクション、AIが100アクション → RHAE = (10/100)² = 1%（10倍非効率なのに1%しか得られない）
人間が10アクション、AIが1000アクション → RHAE = (10/1000)² = 0.01%

なぜ二乗するのか

二乗することで、非効率なブルートフォース解法を強く不利にする設計になっています。10倍の行動数を要するAIは10%ではなく1%しか得られません。これにより、「力技で正解にたどり着く」方式では高スコアが取れない仕組みになっています。

人間ベースラインは、各環境につき初見プレイヤー10人の中で2番目に良いパフォーマンスを基準としています。極端な外れ値を除外しつつ、リアルな人間の実力を反映するためです。

フロンティアモデルのベンチマーク結果

モデルスコア一覧

公開されている結果は以下の通りです（出典：The Decoder）：

モデル	スコア（RHAE）	特記事項
Gemini 3.1 Pro Preview	0.37%	フロンティアモデル最高スコア
GPT-5.4	0.26%	OpenAI最新フロンティアモデル
Claude Opus 4.6	0.25%	Anthropic最新フラッグシップ
Grok-4.20	0.00%	xAI製フロンティアモデル
CNN + グラフ探索（プレビュー）	12.58%	アルゴリズム的アプローチが大差で首位
人間（未訓練）	≈100%	全135環境をクリア

注目点：単純なCNN（畳み込みニューラルネットワーク）とグラフ探索を組み合わせたシステムが、GPT-5.4やOpus 4.6を約50倍上回るスコアを記録しています。

Duke大学実験：既知環境 vs 未知環境

Duke大学の研究者が構築したカスタムハーネスを用いた実験では、驚くべき結果が得られました：

条件	Claude Opus 4.6のスコア
既知の環境（手作りのハーネスあり）	97.1%
未知の環境（ハーネスなし）	0%

カスタムのスキャフォールディング（特定タスク向けの実行環境）を用いると高スコアが取れますが、それは「本当の汎化能力」ではなく「タスク固有の最適化」です。ARC-AGI-3は正にこの違いを見分けるために設計されています。

なぜ現在のLLMはスコアが低いのか

スケーリングの限界

現在の大規模言語モデルは「次のトークンを予測する」という学習タスクを極限まで最適化しています。しかし、ARC-AGI-3が要求するのは：

既存の知識ではなく、その場での学習
自然言語の指示ではなく、観察と行動
記憶されたパターンではなく、リアルタイムの仮説形成

これらはパラメータを増やすだけでは解決しない問題です。ARC Prize Foundationは「現在の深層学習アプローチはこの種の問題でパフォーマンスの上限に達している可能性がある」と述べています。

アーキテクチャ的な課題

現在のTransformerベースのモデルは、静的な知識の圧縮と再現には優れています。しかし：

状態の維持：長いインタラクションシーケンスにわたって一貫した世界モデルを保持すること
能動的探索：受動的な情報処理ではなく、能動的に仮説を検証すること
ゴール推論：明示的な報酬信号なしに目標を推測すること

これらはTransformerが苦手とする領域です。

AGI研究への示唆

「スケーリングではなくアルゴリズム」

ARC-AGI-3のプレビュー段階で最高スコアを記録したのは、パラメータ数が圧倒的に少ないCNN+グラフ探索の組み合わせでした。この事実が示唆するのは：

「ARC-AGI-3を解くカギはモデルのスケールではなく、新しいアルゴリズム的アイデアにある」

これはAI研究の方向性として重要な示唆です。多くの研究者がスケーリング則に依存してきた中、ARC-AGI-3は「異なるアーキテクチャや学習パラダイムが必要だ」というシグナルを発しています。

開発者が注目すべきポイント

Reinforcement Learning（強化学習）：探索・報酬・計画のサイクルはRL的アプローチが有望
World Models：環境の動作原理を内部表現として持つモデルの重要性
Continual Learning：既存の知識を忘れずに新しいタスクを学習する能力
Model-Based Planning：シミュレーションを使った将来の行動計画

ARC Prize 2026 コンペへの参加

賞金構造

ARC Prize 2026の賞金総額は**$2,000,000**です：

トラック	総額	グランプリ
ARC-AGI-3トラック	$850,000	$700,000（100%スコアの初達成）
ARC-AGI-2 最終年トラック	$700,000	—

参加方法

コンペはKaggleでホストされています。

ARC Prize公式サイトでコンペページを確認
docs.arcprize.orgでSDKとドキュメントを参照
公開ゲームセット（/tasks?v=3）でローカル開発・テスト
Kaggleに提出

コミュニティリーダーボードではカスタムスキャフォールディングも許容されています。ただし、メインの評価では「自律的な汎化能力」が問われます。

まとめ

ARC-AGI-3は、現在のフロンティアAIモデルが本当の意味での「汎用的な学習能力」を持っているかどうかを問い直す厳格なベンチマークです。

フロンティアモデルは全て1%未満：GPT-5.4、Opus 4.6、Gemini 3.1 Proなど
人間は全環境をクリア：事前知識・指示なしで
単純なアルゴリズムが12.58%でリード：スケールより設計が重要
$2Mの賞金：Kaggleで参加可能

このベンチマークの存在は、「LLMを大きくすればAGIに近づく」という単純な仮定への反証として機能しています。AGIへの道は、既存のアーキテクチャのスケールアップではなく、質的に異なるアプローチが必要かもしれません。

参考リンク

ARC-AGI-3 公式ページ — ARC Prize Foundation
ARC-AGI-3 リーダーボード — 最新スコア確認
ARC-AGI-3 docs & SDK — 開発者向けドキュメント
ARC-AGI-3 offers $2M to any AI that matches untrained humans — The Decoder（2026-03-27）
ARC-AGI-3 Released, Gemini 3.1 Pro Top Scores With Just 0.37 Percent — OfficeChai（2026-03-27）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up