OpenAI:BrowseComp: a benchmark for browsing agents より
目次
- BrowseCompとは
- BrowseCompが必要とされる背景
- BrowseCompの設計原則
- BrowseCompの問題例
- 人間のパフォーマンス
- AIモデルの性能評価
- 計算リソースとパフォーマンスの関係
- 集約戦略による性能向上
- 問題難易度の分布分析
- BrowseCompの意義と今後の展望
BrowseCompとは
BrowseComp(Browsing Competitionの略)は、AIエージェントがインターネット上で「見つけにくい情報」をどれだけ効率的に探し出せるかを評価するために開発された新しいベンチマークです。OpenAIによって開発されたこのベンチマークは、1,266問の挑戦的な問題で構成されており、インターネット上に存在するものの、発見が困難な複雑な情報を検索するAIの能力を測定します。
インターネットが私たちの情報アクセス方法を変革しましたが、人間によるウェブ検索には以下のような制限があります:
- 記憶力と世界知識に限界がある
- 注意散漫や疲労によりブラウジング能力が低下する
- 人間の脳は一度に一つのことしか処理できず、並列化できない
一方、機械知能はより広範な知識を持ち、疲れることなく集中力を維持できます。十分に高性能な人工知能は、理論上、何千ものウェブページを検索する必要があるような情報でも、適切に仕様が定義されていれば取得できるはずです。
BrowseCompが必要とされる背景
近年、インターネットを閲覧できるAIエージェントの開発が急速に進んでいます。Google、OpenAI、Perplexity、x.AIなど、多くの企業がブラウジング機能を持つAIモデルをリリースしています。
しかし、このようなAIエージェントの能力を測定するための標準的なベンチマークが不足していました。既存のSimpleQAのようなベンチマークは、基本的な単一事実の検索能力を測定することに重点を置いており、ブラウジング機能を持つGPT-4oのような最新モデルによって既に飽和状態(高スコアが達成されている状態)に達しています。
BrowseCompは、以下のような、より現実的で挑戦的な情報検索タスクを評価するために開発されました:
- インターネット上の事実性に関する推論能力
- 答えが見つかりにくい場合に粘り強く探索する能力
- 総当たり的アプローチでは非現実的な場合に創造的な検索戦略を立てる能力
これらの能力は、特定の事実を検索するだけでなく、複雑に絡み合った情報を効率的に発見するために不可欠です。
BrowseCompの設計原則
BrowseCompの問題は、「見つけるのは難しいが、検証するのは簡単」という非対称性の原則に基づいて設計されています。この設計には以下の特徴があります:
-
挑戦的な問題設計: トレーナーは、既存のモデル(GPT-4o、GPT-4o with browsing、初期バージョンのDeep Research)が解けない問題を作成しました。
-
検索エンジンのチェック: 5つの簡単な検索を行い、答えが検索結果の最初のページに表示されないことを確認しました。
-
人間によるテスト: 別の人間が10分以内に解けないほど難しいタスクであることを確認しました。
問題作成者は多くの場合、「事実反転アプローチ」を使用しました。例えば、次のような質問を作成しました:
「2018年から2023年の間にEMNLP会議で発表された科学論文のタイトルを教えてください。ただし、第一著者がダートマス大学の学部出身で、第四著者がペンシルバニア大学の学部出身であるものに限ります。」
この例では、答えを確認するのは数回のウェブ検索で簡単ですが、答えを見つけるには数千の論文を調べ、各論文の著者の経歴を確認する必要があります。
重要ポイント: BrowseCompは、単純な質問応答ベンチマークとは異なり、AIが複数のウェブサイトを検索し、複雑な条件を満たす情報を見つけ出す能力を測定します。
BrowseCompの問題例
BrowseCompの問題がどれほど挑戦的なのかを理解するために、いくつかの例を見てみましょう:
例1:スポーツに関する詳細な検索
1990年から1994年の間に行われたサッカーの試合で、ブラジル人審判が担当し、両チームに2枚ずつ計4枚のイエローカードが出され(そのうち3枚は前半に出されていない)、4人の選手交代があり(そのうち1人は試合開始25分以内の怪我による交代)、どのチームが対戦したのか?
答え: アイルランド対ルーマニア
例2:フィクションキャラクターの特定
時々観客に対して第四の壁を破り、無私の修行者から助けを得たバックストーリーを持ち、ユーモアで知られ、1960年代から1980年代の間に放送されたエピソード数が50未満のTVショーに登場する架空のキャラクターは誰か?
答え: プラスティック・マン
例3:学術研究の検索
2023年6月以前に発行された研究論文で、文化的伝統、科学的プロセス、料理のイノベーションについて言及しているものを特定してください。この論文は3人の共著者によるもので、そのうち1人は西ベンガルの助教授で、もう1人はPh.D.を持っています。
答え: The Fundamentals of Bread Making: The Science of Bread
例4:学校の歴史に関する情報
90年代に女子校と男子校が統合されて新しい共学校が設立されました。この学校は19世紀後半にまでさかのぼる歴史を持つ町にあり、ラテン語の名前が付けられました。元の女子校の名前は何でしたか?
答え: Convent of Our Lady of Mercy
例5:作家の特定
自伝を含む多くの書籍を執筆した作家・伝記作家のペンネームを探しています。1980年、彼らは父親の伝記も書きました。この作家は、8人兄弟の哲学者の兄弟と恋に落ち、1940年代に離婚して再婚しました。
答え: Esther Wyndham
これらの問題は、単一の検索クエリでは解決できない複雑な条件を持っています。情報は断片的に散らばっており、それらを集めて分析する必要があります。
人間のパフォーマンス
BrowseCompの問題の難易度を評価するため、人間のトレーナーにもこれらの問題を解いてもらう実験が行われました。トレーナーはAIアシスタント(ChatGPT、Claude、Perplexity、Grok、Geminiなど)を使用せずに解答するよう指示され、2時間経っても解けない場合は「解決不可能」とマークして次に進むことができました。
結果は以下の通りです:
項目 | 結果 |
---|---|
検証キャンペーンの総問題数 | 1,255問* |
人間が2時間後に諦めた問題 | 888/1,255問 (70.8%) |
人間が解決できた問題 | 367/1,255問 (29.2%) |
解決できた問題のうち、トレーナーの回答が参照回答と一致 | 317/367問 (86.4%) |
*1,266問のうち、11問は様々な理由で人間による試行が行われませんでした。
人間が問題を解くのにかかった時間の分布も興味深いデータを示しています:
- 解決できた問題: 1時間未満で解決した問題もあれば、2〜3時間かかった問題もありました
- 解決できなかった問題: 大半のトレーナーは約2時間試行した後に諦めています
この結果は、BrowseCompが一般的な検索タスクよりも桁違いに難しいことを示しています。データセットの問題は、専門的な調査スキルを持つ人でも解決が困難な、本当に挑戦的なものだといえます。
AIモデルの性能評価
OpenAIはBrowseCompに対して様々なモデルを評価しました。その結果は以下の通りです:
モデル | 正確率 (%) |
---|---|
GPT-4o | 0.6 |
GPT-4o w/ browsing | 1.9 |
GPT-4.5 | 0.9 |
OpenAI o1 | 9.9 |
Deep Research* | 51.5 |
*Deep Researchモデルは、BrowseCompタスクに対応するよう特別にトレーニングされています。
これらの結果から、いくつかの重要な洞察が得られます:
-
ブラウジング機能だけでは不十分: GPT-4oにブラウジング機能を追加しても、正確率はわずかしか向上しませんでした(0.6%から1.9%へ)。これは、単にウェブを閲覧できるだけでは、複雑な情報検索タスクには不十分であることを示しています。
-
推論能力の重要性: ブラウジング機能のないOpenAI o1は9.9%の正確率を達成しました。これは、強力な推論能力が情報検索においても重要であることを示しています。
-
専門モデルの優位性: Deep Researchモデルは約51.5%の正確率を達成し、他のすべてのモデルを大幅に上回りました。このモデルは、ウェブを自律的に検索し、複数のソースから情報を評価・統合し、検索過程で発見した情報に応じて戦略を適応させる能力を持っています。
注目ポイント: 既存のモデルであってもBrowseCompの全問題を解決できるわけではなく、最も高性能なDeep Researchモデルでさえ約半分の問題しか解けませんでした。これは、ウェブ上の難解な情報を検索するAIの能力にはまだ大きな向上の余地があることを示しています。
計算リソースとパフォーマンスの関係
AIエージェントの興味深い特性の一つは、推論時(テスト時)に使用する計算リソースの量に応じてパフォーマンスがスケールすることです。これはOpenAI o1がAIME問題で、またOpenAI o3-mini(low/medium/high)でも示されてきました。
BrowseCompでも同様の傾向が見られました。以下のグラフは、Deep Researchモデルの推論時に使用する計算リソースとパフォーマンスの関係を示しています:
このグラフから、使用する計算リソースが増えるにつれて、モデルのパフォーマンスが滑らかに向上していることがわかります。これは、BrowseCompのような複雑な情報検索タスクでは、より多くの時間とリソースをかけることで、より高い成功率が達成できることを示しています。
この傾向は、AIエージェントが実際の情報検索タスクにおいて、より多くの「考える時間」や「探索時間」を与えられることで、より良い結果を出せることを示唆しています。
集約戦略による性能向上
単一の試行での性能向上に加えて、研究者たちは同じ問題に対して複数回試行し、最適な回答を選択するための戦略も評価しました。Deep Researchモデルの場合、1つの問題に対して64回の出力サンプルを生成し、以下の3つの方法で最終的な回答を選択しました:
- 多数決投票: 複数の試行で最も頻繁に出現する回答を選択
- 加重投票: モデルの各試行における信頼度で重み付けして投票
- Best-of-N: 最も信頼度の高い回答を選択
これらの方法を使用することで、単一の試行と比較して15%から25%のパフォーマンス向上が達成されました。特にBest-of-N戦略が一貫して最高の正確率を示しました。
これは、BrowseCompが「見つけるのは難しいが、検証するのは簡単」という特性を持つことと一致しています。モデルは正しい答えを見つけたときに、それが正しいかどうかをある程度判断できるようです。Deep Researchモデルは、自信の度合いが実際の正確性と完全に一致するわけではありませんが(キャリブレーションエラー)、正しい答えを選ぶための有意義な内部信号を持っていることが示されています。
問題難易度の分布分析
より詳細な分析として、研究者たちはDeep ResearchモデルとOpenAI o1の問題ごとの成功率を調査しました。各問題に対して64回の試行を行い、成功率の分布を分析しました:
この分析から、以下のような洞察が得られます:
-
完全成功と完全失敗: Deep Researchモデルは16%の問題で100%の成功率を示し(完全に解決)、14%の問題では0%の成功率でした(全く解決できず)。
-
多様な難易度: 多くの問題(約70%)は、これら両極端の間に分布しており、問題の構造や領域によってモデルの成功率が変わることを示しています。
-
難解な問題の存在: OpenAI o1は約79.3%の問題で0%の成功率を示し、BrowseCompの問題の大半がブラウジング機能なしでは解決困難であることを示しています。
研究者たちは、Deep Researchが一度も正解を出せなかった問題に対して追加実験を行いました。モデルに正解を与え、それを裏付けるウェブ上の証拠を探すよう指示したところ、ほとんどの場合モデルは成功しました。これは、これらの問題が解決不可能なわけではなく、単に非常に難しいことを示しています。
BrowseCompの問題は単なる情報検索を超え、戦略的な粘り強さ、柔軟な検索クエリの再構成、複数のソースから断片的な手がかりを組み立てる能力を必要とするのです。
BrowseCompの意義と今後の展望
BrowseCompは、AIエージェントがインターネット上で難解な情報を検索する能力を評価する簡潔でありながら挑戦的なベンチマークです。その意義は以下の点にあります:
-
現実的なブラウジング能力の評価: 単純な検索クエリを超えた、複雑で入り組んだ情報を検索する能力を測定します。これは実際のユーザーが直面する難しい検索タスクに近いものです。
-
AIエージェントの進化を促進: BrowseCompの公開により、より信頼性と正確性の高いブラウジングエージェントの開発が促進されることが期待されます。
-
現在の限界の特定: 最先端のモデルでも解決できない問題があることを示し、今後の研究開発の方向性を示しています。
-
シンプルながら意義深い評価: 短い回答で評価が容易ながらも、核となる情報検索能力を測定するという、実用的なベンチマークを提供しています。
ただし、BrowseCompにはいくつかの制限もあることを認識する必要があります:
- 実際のユーザークエリの分布を完全に反映しているわけではない
- 長い回答の生成や質問の曖昧さの解決といった側面は評価していない
- 問題には唯一の正解があると想定しているが、実際には複数の正解がある可能性もある
これらの制限にもかかわらず、BrowseCompはブラウジングエージェントの中核的な能力を測定する貴重なツールです。プログラミングコンテストがコーディング能力の重要な側面を評価するのと同様に、BrowseCompは粘り強さと創造性を持って情報を見つけ出す能力という、重要な検索能力を評価します。
まとめ
BrowseCompは、AIエージェントがインターネット上の難解な情報をどれだけ効果的に検索できるかを測定する挑戦的なベンチマークです。1,266問の問題からなるこのベンチマークは、AIの発展において以下の点で重要な役割を果たします:
- 「見つけるのは難しいが、検証は簡単」という問題設計思想
- 人間の専門家も解くのに苦労する難易度の高さ
- 最先端のAIモデルでさえ完全に解くことができない挑戦的な内容
- 計算リソースの増加や集約戦略によって性能が向上する特性
最新のDeep Researchモデルでさえ約半分の問題しか解決できないことは、情報検索の分野にはまだ多くの改善の余地があることを示しています。BrowseCompの公開によって、より信頼性が高く、効果的な情報検索AIの開発が促進されることが期待されます。
AIがインターネット上の情報を効率的に検索できるようになれば、私たち人間の情報アクセスと知識獲得の方法も大きく変わる可能性があります。BrowseCompは、その進化の過程を測定し、促進するための重要な一歩と言えるでしょう。
理解度チェッククイズ
以下の質問に答えて、BrowseCompについての理解度をチェックしてみましょう:
-
BrowseCompの主な目的は何ですか?
- AIの一般的な知識を測定する
- AIの数学的推論能力を測定する
- AIがインターネット上の見つけにくい情報を検索する能力を測定する
- AIのプログラミング能力を測定する
-
BrowseCompの問題設計における「非対称性」とは何を指しますか?
- 問題は対称的な構造を持っている
- 見つけるのは難しいが検証するのは簡単
- 簡単に見つかるが検証が難しい
- 問題と回答の長さが非対称
-
Deep Researchモデルの正確率はどのくらいでしたか?
- 約10%
- 約25%
- 約51.5%
- 約90%
-
テスト時の計算リソースとパフォーマンスの関係について正しいのはどれですか?
- リソースが増えてもパフォーマンスは変わらない
- リソースが増えるとパフォーマンスは下がる
- リソースが増えるとパフォーマンスは滑らかに向上する
- リソースとパフォーマンスには関係がない
-
人間のトレーナーがBrowseCompの問題を解けた割合はどのくらいでしたか?
- 約5%
- 約29.2%
- 約51.5%
- 約80%