AIエージェントがデータ分析でつまずくとき、原因はたいてい「知識が足りないから」だと思われがちだ。だが実際にエージェントを動かしていると、もっと厄介な失敗のほうが目につく。データの異常にちゃんと気づき、思考ログの中で「バッチ効果があるかもしれない」と口にしておきながら、その気づきを次の一手に反映せず、最初の方針のまま最後まで走り切ってしまう。指摘はできるのに、行動を変えられない。
OpenAIが6月30日に公開した評価ベンチマーク GeneBench-Pro は、まさにこの「気づくのに動けない」ギャップを数値で炙り出す設計になっている。題材は計算生物学(ゲノム解析や臨床データの統計分析)だが、測っているものはもっと普遍的で、多段の判断が連鎖する分析タスクをエージェントが最後までやり切れるか、という話だ。
🧬 「賢さ」ではなく「研究の判断力」を測る
論文(PDF)によれば、GeneBench-Proは129問からなる。各問題でエージェントに渡されるのは2つだけだ。研究室やEHR(電子カルテ)から届いたばかりのような、わざと汚した(欠損・外れ値・バッチ効果などを仕込んだ)データセットと、「何を推定してほしいか」(target estimand=目標推定量)を書いた最小限のプロンプト。どんな手順で解くかは一切指示されない。
肝は、各問題が3〜13個(中央値6)の**決定ポイント(decision points)**の連鎖でできていることだ。決定ポイントとは、もっともらしい誤選択をすると以降の分析全体が別物になってしまう分岐点を指す。上流の品質管理(QC)やモデル選択を一つ取り違えると、その誤りが下流に伝播して最終的な数値がずれ、不正解になる。つまり単発の知識問題ではなく、判断の依存関係をたどる長距離タスクである。
エージェントが置かれる環境も具体的だ。
# 隔離ワークスペース(インターネット接続なし)
Python: numpy, pandas, scipy, scikit-learn, statsmodels, lifelines, matplotlib, seaborn
ゲノム系ツール: PLINK 2.0, pysnptools, bed-reader, bedtools, pysam
最終出力: ちょうど1個のJSONオブジェクト
採点は部分点なしの二値だ。途中の工程をいくつ正しく踏んでいても、最後の意思決定に関わる答えを間違えれば0点になる。論文はこれを意図的な設計だと明言している。
中間ステップをいくつか正しく実行しても、意思決定に関わる答えを誤って返したエージェントは、その分析の自動化に成功していない。
現場感覚として、この割り切りは正しい。分析パイプラインは「8割正しい」では信用して意思決定に使えないからだ。
最強モデルでも3割、しかも「気づいてはいる」
結果を見ると、まだ全然できていない。フルスイート129問での合格率(各モデルの最良の推論設定)を抜き出すと次のようになる。
| モデル | 合格率(129問) |
|---|---|
| GPT-5.6 Sol(最大推論) | 28.7% |
| GPT-5.6 Sol Pro | 31.5% |
| GPT-5.6 Terra | 23.3% |
| Claude Opus 4.8(GPT以外で最強) | 16.0% |
| GPT-5.5 | 12.0% |
| Gemini 3.5 Flash | 8.1% |
| GPT-5.2 | 4.9% |
| Grok 4.3 | 1.5% |
最上位のGPT-5.6 SolでもPro版で3割強。原型となった旧GeneBenchを作った当時、当時のフロンティアだったGPT-5は5%未満だったというから、伸びてはいる。それでも7割は落とす。
興味深いのは失敗の質だ。OpenAIはトレース分析から、強いモデルほど「データの異常や統計的な違和感に気づく」能力そのものはすでに高い、と述べている。差がつくのは、その観察を具体的な修正や手法の選び直しに変換して、分析を正しい経路に載せ直せるかどうか。論文はこれを人間の熟達者と初心者の差になぞらえる。初心者も異常には気づくが、それを問題全体の文脈に統合して次の判断を変えることができない。
エージェント開発をしていると、この描写は生物学に限らず刺さる。ツール実行の途中で警告に触れておきながら、そのまま当初のプランを完遂してしまう挙動は、コーディングエージェントでもデータ分析エージェントでも日常的に見る。GeneBench-Proの価値は、その「notice-act gap(気づきと行動の溝)」を、印象論ではなく合格率という一つの数字に落とし込んだところにある。
なぜ本物のデータではなく「全部シミュレーション」なのか
個人的にいちばん学びが大きかったのは、問題の作り方だ。GeneBench-Proの129問は、実在データではなくすべてデータ生成過程(DGP)まで込みでシミュレーションされている。ここには評価設計上のはっきりした理由がある。
実在の歴史的データに後付けで多段の問いをぶら下げる、という従来のやり方には落とし穴がある。現実のデータは「もっともらしく正当化できる分析経路」が複数存在してしまう。論文の言葉を借りれば「分岐する小道の庭(garden of forking paths)」だ。3工程のQCを課したとき、出題者が想定しなかった別の妥当な選択肢が各工程に潜んでいれば、その道を選んだエージェントは正解にたどり着いても不正解と採点される。すると推論チェーンが長いほど合格率が自然に減衰し、ベンチマークが「推論の質」を測っているのか「出題者の好みとの一致」を測っているのか区別がつかなくなる。
GeneBench-Proは因果構造を自分で決めてデータを生成することで、正解が生成パラメータそのものではなく「与えられたデータから復元可能な量」になるよう作り込み、もっともらしい誤答が明確な差で外れることをアブレーション(要因を一つずつ変える検証)で確認している。設計指針として、近くにある妥当な閾値のブレには鈍感で、科学的に必要な工程の欠落には敏感、という性質を狙っている。さらに129問中82問は外部の専門家レビューを受けている。
エージェントの評価を組む人間として、これは題材が生物学かどうかとは無関係に効く発想だ。多段タスクの評価で合格率が下がったとき、それがモデルの弱さなのか採点の曖昧さなのかを切り分けられなければ、その数字は改善の指針にならない。答えが一意に復元できるよう合成データで足場を組む、という姿勢はそのまま自前のエージェント評価にも移植できる。
生物学者でなくても触れる
OpenAIは129問のうち10問を、プロンプト・データ・採点器・詳細なケーススタディ付きでHugging Faceに公開している。
残りは汚染防止のための段階リリースで、50問は第三者評価用にArtificial Analysisへ、69問は内部ホールドアウトとして非公開だ。注意したいのは、この難しめの第三者向け50問だと合格率がさらに大きく下がる点で(たとえばClaude Opus 4.8は最大推論でも129問全体の16.0%に対しこのサブセットでは4.8%)、公開分の印象より実力の天井は低い。ここは「まだ全然できていない」を裏書きする数字として受け止めておきたい。
計算生物学の専門家でなくても、公開10問のケーススタディは一読の価値がある。QCとモデル選択の分岐でAIがどこで踏み外すのかを具体的に観察でき、それはあなたが作っている分析エージェントの信頼性を考える材料になる。賢さの競争が飽和しつつある今、次に効くのは「気づいたことを行動に変える」制御の設計だ、というのがこのベンチマークの静かな主張だと私は読んだ。