コーディングエージェントに「この論文の手法を実装して、報告されている精度を超えてみて」と頼んだら、どこまでできるのか。再現(reproduction)ならGitHubのREADME通りに動かせば済む話だが、論文に載っている最高精度(SOTA, state of the art)を自力で上回るとなると、それはもう発見(discovery)の領域だ。清華大学などの研究グループが6月23日に公開した NatureBench は、まさにこの境界を測りにいったベンチマークで、結果は現役エンジニアの肌感覚を裏切らない方向に振れた。最強構成でも、SOTAを超えられたのは全課題の17.8%にとどまる。
何を測っているのか
NatureBenchの課題は、Nature系列の査読済み論文90本から蒸留した90タスクで構成される。対象は6分野にまたがる。細胞オミクス、タンパク質生物学、生物医学モデリング、物理モデリング、分子設計、そして関係推論だ。どれも「データを渡されて、論文と同じ予測タスクをモデルで解く」形に落とし込まれている。
肝はスコアの定義にある。各タスクで、エージェントが出した指標値 m を論文のSOTA値 m_sota と比べ、向きをそろえた相対ギャップ g を計算する。
g = dir · (m − m_sota) / |m_sota|
dir は「精度は高いほど良い」「誤差は低いほど良い」といった指標の方向を ±1 で表す係数だ。この g を使って2つの達成度を区別する。g ≥ 0 なら論文に追いついた(Match-SOTA)、g > 0.1 なら論文を10%以上引き離した(Surpass-SOTA)。「だいたい再現できた」と「論文を明確に超えた」を、同じ物差しの上で連続的に切り分けているのがうまい。
カンニングを潰す作り
この手のベンチマークが信用されにくい最大の理由は、エージェントが元論文や元データセットをWebから拾ってきて答えを写せてしまうことだ。NatureBenchはそこを2段構えで塞いでいる。
まず環境側。NatureGymという自動パイプラインが、論文1本からタスクごとに独立したDockerコンテナを生成する。中身はタスク説明、論文のデータセット、正解を伏せた held-out テストセット、そして自動評価器。エージェントから見える problem/ と、評価専用で隠された evaluation/ がディレクトリレベルで分離されている。過去のエージェント評価で問題になりがちだった「環境の作り込みが課題ごとにバラバラで比較にならない」問題を、コンテナ標準化で潰しにいった設計だ。
その上で、全エージェントのWeb検索を無効化する。
All agents disable web search, preventing them from retrieving the source dataset or paper content as a shortcut.
さらに実行後には Claude Sonnet 4.6 を審判に立て、出力の捏造、学習の代わりにルールを差し替える、隠し正解の復元、フィードバックの悪用、訓練の迂回といったズルがないかを事後チェックして弾く。Web検索を切る判断は、Codexがなぜ既定でライブページを取りにいかないのかという議論とも地続きで、ベンチマークの世界では「検索できること」が即ノイズになるという割り切りがはっきり出ている。
17.8%という数字の中身
10種類のフロンティアエージェント構成を回した結果が以下になる(Surpass=SOTA超え、Match=SOTA到達)。
| モデル | SOTA超え | SOTA到達 |
|---|---|---|
| Claude Opus 4.7 | 17.8% | 47.8% |
| Gemini 3.5 Flash | 15.6% | 37.8% |
| GPT-5.5 | 14.4% | 44.4% |
| Claude Opus 4.6 | 12.2% | 36.7% |
| Qwen 3.7 Max | 10.0% | 28.9% |
トップのClaude Opus 4.7でも、半分弱の課題で論文に追いつき、明確に超えられるのは2割を切る。注目すべきはこの数字そのものより、どうやって勝った課題を勝ったかの内訳だ。成功した実行のうち45.5%が「教師ありの代理予測」、つまり科学の問題を見慣れた予測タスクに翻訳して解いていた。チューニング17.6%、エンジニアリングのパイプライン整備11.0%、事前学習・スケーリング8.6%を足すと、成功の82.7%が分野固有の科学的洞察ではなく汎用的なML工学で説明がついてしまう。
失敗の側も示唆的で、手法選択そのものを間違える(45.1%)と、計算予算が足りない(24.4%)が大半を占める。論文の問題設定を理解できずに転ぶケースは1割強しかない。エージェントは「問題は読める。が、新しい解き方を思いつくのではなく、手持ちの型に押し込んで殴る」傾向がくっきり出ている。
自分で回せる
ベンチマーク、NatureGymパイプライン、リーダーボードはすべてMITライセンスで公開されている(タスク内の第三者データは個別の表示に従う)。Claude Code、Codex、Gemini CLI、それに自作エージェントを差し込んで評価できる。
git clone https://github.com/FrontisAI/NatureBench.git
cd NatureBench
conda env create -f conda_env.yml
conda activate naturebench
python run_naturebench.py \
--tasks gpu_low \
--agent claude \
--model <model-name> \
--gpu-devices 0,1,2,3 \
--max-workers 4 \
--start-eval-services
GPUを並べてDockerを回す前提なので手元のラップトップでお試し、とはいかないが、gpu_low のような軽量サブセットが用意されているのは良心的だ。
実務の目線で見ると、この結果は「コーディングエージェントは使えない」という話では全くない。むしろ逆で、教師ありの予測問題やパイプライン整備のように型のある作業なら、フロンティアモデルはすでに論文水準で殴り合える。SWE-Bench系のソフトウェア課題で見えてきた強さが、科学計算のドメインでも崩れていない。一方で、解き方の枠組みごと新しく発明する仕事は、まだ人間が問題を切り出してエージェントに渡す前段が要る。エージェントに任せる粒度を「探索」ではなく「実装と最適化」に置く、という設計判断を、NatureBenchは数字で裏づけてくれる。
論文・コード・リーダーボードは以下から。