0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

0
Last updated at Posted at 2026-03-27

はじめに

2026年3月24日、ARC Prize FoundationがARC-AGI-3を公開しました。このベンチマークは、現在の最先端AIが「本当の意味で人間のように考えられるか」を測定するための新しい指標です。

結果は衝撃的でした。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview、Grok-4.20といったフロンティアモデルがすべて1%未満のスコアしか達成できなかった一方、テストした135環境すべてを事前知識なしで解いたのは人間でした。

この記事では、ARC-AGI-3の設計思想、スコアリング方式、各AIモデルの結果、そして今後のAGI研究への示唆について解説します。

この記事で学べること

  • ARC-AGI-3の設計思想と従来版との違い
  • RHAEスコアリングの仕組みと数式
  • フロンティアモデルのベンチマーク結果(数値付き)
  • なぜ現在のLLMはこのベンチマークで低スコアなのか
  • ARC Prize 2026コンペへの参加方法

対象読者

  • AIモデルの評価・比較に興味があるエンジニア
  • AGI研究の最新動向を追いたい方
  • LLMベンチマークの設計に興味がある方

TL;DR

  • ARC-AGI-3はインタラクティブ推論ベンチマーク:静的なパズルではなく、未知の環境でゴールを自律探索する能力を測定
  • フロンティアモデルのスコア:Gemini 3.1 Pro 0.37%、GPT-5.4 0.26%、Opus 4.6 0.25%、Grok-4.20 0.00%
  • 単純なCNN+グラフ探索が**12.58%**でトップ(プレビュー期)
  • スコア指標はRHAE(人間の行動数 / AIの行動数)²
  • ARC Prize 2026で**$2Mの賞金**(Kaggleで参加可能)

ARC-AGI-3とは何か

ARC-AGI-1/2からの進化

ARC(Abstraction and Reasoning Corpus)は、François Cholletが提唱した「人間の知能の公正なテスト」を目的とするベンチマークシリーズです。

バージョン 形式 特徴
ARC-AGI-1 静的パズル 入力→出力のグリッド変換
ARC-AGI-2 静的パズル(難化) より複雑なルール推論
ARC-AGI-3 インタラクティブゲーム 探索・仮説・実行のサイクル

ARC-AGI-3の最大の革新点は「インタラクティブ性」です。AIはもはや静的な問題を解くのではなく、未知の環境に置かれ、自ら探索してルールを発見し、ゴールを推測して行動しなければなりません。

"As long as there is a gap between AI and human learning, we do not have AGI."
— ARC Prize Foundation(公式サイト

4つの評価能力

ARC-AGI-3が測定するのは以下の4能力です:

  1. 探索(Exploration):環境を積極的に調べ、情報を収集する
  2. モデリング(Modeling):環境の動作原理を内部的にマッピングする
  3. ゴール設定(Goal-Setting):指示なしに何を目指すべきかを推測する
  4. 計画(Planning):戦略を立て、状況変化に応じて修正する

すべての環境はナチュラルランゲージの指示が一切なく、AIは純粋に「観察と行動」だけで学習しなければなりません。

RHAEスコアリングの仕組み

指標の定義

ARC-AGI-3は**RHAE(Relative Human Action Efficiency)**という新しいスコアリング指標を採用しています。

RHAE = (人間の行動数 / AIの行動数)²

具体例:

  • 人間が10アクションでクリア、AIも10アクションでクリア → RHAE = (10/10)² = 100%
  • 人間が10アクション、AIが100アクション → RHAE = (10/100)² = 1%(10倍非効率なのに1%しか得られない)
  • 人間が10アクション、AIが1000アクション → RHAE = (10/1000)² = 0.01%

なぜ二乗するのか

二乗することで、非効率なブルートフォース解法を強く不利にする設計になっています。10倍の行動数を要するAIは10%ではなく1%しか得られません。これにより、「力技で正解にたどり着く」方式では高スコアが取れない仕組みになっています。

人間ベースラインは、各環境につき初見プレイヤー10人の中で2番目に良いパフォーマンスを基準としています。極端な外れ値を除外しつつ、リアルな人間の実力を反映するためです。

フロンティアモデルのベンチマーク結果

モデルスコア一覧

公開されている結果は以下の通りです(出典:The Decoder):

モデル スコア(RHAE) 特記事項
Gemini 3.1 Pro Preview 0.37% フロンティアモデル最高スコア
GPT-5.4 0.26% OpenAI最新フロンティアモデル
Claude Opus 4.6 0.25% Anthropic最新フラッグシップ
Grok-4.20 0.00% xAI製フロンティアモデル
CNN + グラフ探索(プレビュー) 12.58% アルゴリズム的アプローチが大差で首位
人間(未訓練) ≈100% 全135環境をクリア

注目点:単純なCNN(畳み込みニューラルネットワーク)とグラフ探索を組み合わせたシステムが、GPT-5.4やOpus 4.6を約50倍上回るスコアを記録しています。

Duke大学実験:既知環境 vs 未知環境

Duke大学の研究者が構築したカスタムハーネスを用いた実験では、驚くべき結果が得られました:

条件 Claude Opus 4.6のスコア
既知の環境(手作りのハーネスあり) 97.1%
未知の環境(ハーネスなし) 0%

カスタムのスキャフォールディング(特定タスク向けの実行環境)を用いると高スコアが取れますが、それは「本当の汎化能力」ではなく「タスク固有の最適化」です。ARC-AGI-3は正にこの違いを見分けるために設計されています。

なぜ現在のLLMはスコアが低いのか

スケーリングの限界

現在の大規模言語モデルは「次のトークンを予測する」という学習タスクを極限まで最適化しています。しかし、ARC-AGI-3が要求するのは:

  • 既存の知識ではなく、その場での学習
  • 自然言語の指示ではなく、観察と行動
  • 記憶されたパターンではなく、リアルタイムの仮説形成

これらはパラメータを増やすだけでは解決しない問題です。ARC Prize Foundationは「現在の深層学習アプローチはこの種の問題でパフォーマンスの上限に達している可能性がある」と述べています。

アーキテクチャ的な課題

現在のTransformerベースのモデルは、静的な知識の圧縮と再現には優れています。しかし:

  • 状態の維持:長いインタラクションシーケンスにわたって一貫した世界モデルを保持すること
  • 能動的探索:受動的な情報処理ではなく、能動的に仮説を検証すること
  • ゴール推論:明示的な報酬信号なしに目標を推測すること

これらはTransformerが苦手とする領域です。

AGI研究への示唆

「スケーリングではなくアルゴリズム」

ARC-AGI-3のプレビュー段階で最高スコアを記録したのは、パラメータ数が圧倒的に少ないCNN+グラフ探索の組み合わせでした。この事実が示唆するのは:

「ARC-AGI-3を解くカギはモデルのスケールではなく、新しいアルゴリズム的アイデアにある」

これはAI研究の方向性として重要な示唆です。多くの研究者がスケーリング則に依存してきた中、ARC-AGI-3は「異なるアーキテクチャや学習パラダイムが必要だ」というシグナルを発しています。

開発者が注目すべきポイント

  • Reinforcement Learning(強化学習):探索・報酬・計画のサイクルはRL的アプローチが有望
  • World Models:環境の動作原理を内部表現として持つモデルの重要性
  • Continual Learning:既存の知識を忘れずに新しいタスクを学習する能力
  • Model-Based Planning:シミュレーションを使った将来の行動計画

ARC Prize 2026 コンペへの参加

賞金構造

ARC Prize 2026の賞金総額は**$2,000,000**です:

トラック 総額 グランプリ
ARC-AGI-3トラック $850,000 $700,000(100%スコアの初達成)
ARC-AGI-2 最終年トラック $700,000

参加方法

コンペはKaggleでホストされています。

  1. ARC Prize公式サイトでコンペページを確認
  2. docs.arcprize.orgでSDKとドキュメントを参照
  3. 公開ゲームセット(/tasks?v=3)でローカル開発・テスト
  4. Kaggleに提出

コミュニティリーダーボードではカスタムスキャフォールディングも許容されています。ただし、メインの評価では「自律的な汎化能力」が問われます。

まとめ

ARC-AGI-3は、現在のフロンティアAIモデルが本当の意味での「汎用的な学習能力」を持っているかどうかを問い直す厳格なベンチマークです。

  • フロンティアモデルは全て1%未満:GPT-5.4、Opus 4.6、Gemini 3.1 Proなど
  • 人間は全環境をクリア:事前知識・指示なしで
  • 単純なアルゴリズムが12.58%でリード:スケールより設計が重要
  • $2Mの賞金:Kaggleで参加可能

このベンチマークの存在は、「LLMを大きくすればAGIに近づく」という単純な仮定への反証として機能しています。AGIへの道は、既存のアーキテクチャのスケールアップではなく、質的に異なるアプローチが必要かもしれません。

参考リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?