MLE-bench論文

Last updated at 2024-10-21Posted at 2024-10-21

MLE-bench論文

note

MLE-BENCH: EVALUATING MACHINE LEARNING AGENTS ON MACHINE LEARNING ENGINEERING
https://arxiv.org/pdf/2410.07095

ABSTRACT

本論文では、AIエージェントが機械学習エンジニアリングタスクをどの程度うまく実行できるかを測定するためのベンチマークであるMLE-benchを提案します。この目的のために、Kaggleから75の機械学習エンジニアリング関連のコンペティションを厳選し、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする、多様で挑戦的なタスクセットを作成しました。Kaggleの公開されているリーダーボードを使用して、各コンペティションの人間によるベースラインを確立しました。オープンソースのエージェント・スキャフォールドを使用して、ベンチマークでいくつかの最先端の言語モデルを評価し、最高のパフォーマンスを発揮するセットアップ（OpenAIのol-previewとAIDEスキャフォールド）が、コンペティションの16.9%で少なくともKaggleのブロンズメダルレベルを達成することを発見しました。主な結果に加えて、AIエージェントのリソーススケーリングのさまざまな形態と、事前トレーニングからの汚染の影響についても調査しました。将来の研究を促進するために、ベンチマークコード（github.com/openai/mle-bench/）をオープンソース化し、AIエージェントの機械学習エンジニアリング能力の理解を深めます。

ポイント:

MLE-benchは、AIエージェントが機械学習エンジニアリングタスクをどの程度うまく実行できるかを評価するためのベンチマークです。
Kaggleから75のコンペティションを厳選し、現実世界の機械学習エンジニアリングスキルをテストする多様なタスクセットを作成しました。
人間によるベースラインを確立し、オープンソースのエージェント・スキャフォールドを使用して最先端の言語モデルを評価しました。
最高のパフォーマンスを発揮するセットアップは、コンペティションの16.9%で少なくともKaggleのブロンズメダルレベルを達成しました。
AIエージェントのリソーススケーリングと事前トレーニングからの汚染の影響についても調査しました。
ベンチマークコードをオープンソース化し、AIエージェントの機械学習エンジニアリング能力の理解を深めるための将来の研究を促進します。

1 INTRODUCTION

大規模言語モデル（LLM）は、多くのコーディングベンチマークで目覚ましい性能を達成しており（Chen et al., 2021; Hendrycks et al., 2021; Austin et al., 2021; Li et al., 2022）、アーキテクチャ設計やモデル学習など、様々な機械学習タスクにおいても進歩を遂げています（Zheng et al., 2023; Huang et al., 2024b）。LLMはプログラミングツールにも採用されており（Kalliamvakou, 2022）、エージェントスキャフォールディングの進歩により、開発者のワークフローの自動化がますます進んでいます（cognition.ai, 2024; Dohmke, 2024）。しかし、モデルとエージェントの能力開発が急増している一方で、自律的なエンドツーエンドの機械学習エンジニアリングを包括的に測定するベンチマークはほとんどありません。

そこで私たちは、AIエージェントが困難な機械学習エンジニアリング（MLE）タスクをどの程度うまく実行できるかを評価するためのオフラインKaggleコンペティション環境であるMLE-benchを紹介します。MLE-benchは、自律型MLエンジニアリングエージェントの現実世界における進歩を確実に測定するために構築されており、主に2つの設計上の選択肢に焦点を当てています。（i）現代のMLエンジニアリング作業に課題があり、代表的なタスクを選択すること、（ii）評価結果を人間レベルの性能と比較できるようにすることです。

結果として得られたベンチマークは、自然言語処理、コンピュータビジョン、信号処理など、様々な分野にわたる75の多様なKaggleコンペティションで構成されています。コンペティションの多くは、OpenVaccine：COVID-19 mRNAワクチン分解予測（Das et al., 2020）や古代の巻物を解読するためのベスビオチャレンジ（Lourenco et al., 2023）など、現実世界に価値のある現代的な課題です。75のコンペティション全体で授与された賞金の総額は1,948,016ドル（コンペティションあたり平均25,974ドル）です。

私たちのベンチマークにおける課題の種類を自律的に解決できるAIエージェントは、科学的進歩を大きく加速させる可能性があります。これは刺激的な見通しですが、進歩を安全かつ制御された方法で展開するために、モデルの進歩を慎重に理解することも必要です。たとえば、MLE-benchは、OpenAIのPreparedness Framework（OpenAI, 2023）、AnthropicのResponsible Scaling Policy（Anthropic, 2023）、Google DeepMindのFrontier Safety Framework（Google DeepMind, 2024）におけるモデルの自律性の尺度として使用できます。

オープンソースのスキャフォールドと組み合わせると、主要なLLMが私たちのベンチマークで有意義なスコアを達成することがわかりました。私たちが評価した中で最も性能の高いエージェントであるol-preview with AIDEは、Kaggleコンペティション用に特別に構築されたスキャフォールディングを使用し、平均16.9％のコンペティションでメダルを獲得しました。エージェントにコンペティションごとに複数回の試行が許可されると、パフォーマンスが大幅に向上することがわかりました。たとえば、ol-previewのスコアは、pass@1を使用した場合は16.9％ですが、pass@8を使用した場合は34.1％に倍増します。同様に、GPT-40は、各コンペティションに24時間かけると8.7％のスコアになりますが、100時間かけると11.8％になります。一般的に、エージェントはよく知られたアプローチで解決できるコンペティションでは良いスコアを獲得できますが、問題をデバッグしたり、ミスから回復したりするのは難しいことがわかりました。

貢献

私たちの貢献は以下の通りです。

MLE-bench - AIエージェントのMLエンジニアリング能力を評価するための、MLエンジニアのチームによって慎重に作成された75のオフラインKaggleコンペティションのベンチマーク。
最新のモデルとエージェントフレームワークの大規模な評価。自律型MLエンジニアリングエージェントの可能性と限界に関する新しい情報を明らかにします。
エージェントのランタイム、ハードウェアリソース、pass@k試行のスケーリングなど、エージェントのリソーススケーリングに関する実験。現代のエージェントのパフォーマンスの上限を探ります。
データセットの汚染とエージェントのパフォーマンスの関係、および盗用や不正行為を検出するためのエージェント監視ツールを調査する実験。

2 MLE-BENCH

MLE-BENCHは、最先端の研究所で機械学習エンジニアが日常的に使用するコアとなるスキルセットを反映した、Kaggleから手作業で選定された75個の機械学習エンジニアリングタスクで構成されています。

Kaggleは、参加者が予測モデルを構築して課題を解決する必要があるデータサイエンスと機械学習のコンペティションを主催するプラットフォームであり、多くの場合、実世界のデータセットを使用します。参加者は、各コンペティションであらかじめ定義された指標で最高のスコアを達成することを競い合い、リーダーボード上で互いにランク付けされます。上位のコンペティションの結果には、ブロンズ、シルバー、ゴールドのメダルが授与されます。

2.1 DATASET CURATION

MLE-BENCHの各サンプルは、Kaggleのコンペティションで構成されており、以下が含まれます。

コンペティションのウェブサイトの「概要」と「データ」タブからスクレイピングされた説明。
コンペティションのデータセット（ほとんどの場合、新しいトレーニング/テスト分割を使用 - 詳細は後述）。
ローカルで提出物を評価するために使用されるグレーディングコード。
人間の提出物と比較してランク付けするために使用される、コンペティションのリーダーボードのスナップショット。

2.2 METRICS

リーダーボード

MLE-benchのパフォーマンスを、各Kaggleコンペティションのリーダーボードを用いて評価します。Kaggleでは、コンペティションに「公開」と「非公開」の2種類のリーダーボードが存在する場合があります。Kaggleへの提出物は公開リーダーボードに過剰適合することがあるため、非公開リーダーボードを使用することにしました。

メダル

Kaggleは、リーダーボードに対するパフォーマンスに基づいて、上位の参加者に銅、銀、金のメダルを授与します（表1）。同様に、MLE-benchは、エージェントがその時点でコンペティションに参加していたかのように、非公開リーダーボードと比較することで、エージェントの提出物にメダルを授与します。銅、銀、金のメダル獲得のしきい値は、コンペティションの参加者数によって異なり、どのメダルも異なるコンペティション間で同等の達成度を反映するように設定されています。Kaggleのすべてのコンペティションでメダルが授与されるわけではありませんが、MLE-benchではすべてのコンペティションにメダルのしきい値ロジックを適用します。

主要指標

MLE-benchの単一の指標を提供するために、メダル（銅メダル以上）を獲得した試行の割合を計算します。これは、長年の累積的な努力の結果として、非常に優秀な人間のKagglerの業績に匹敵する、挑戦的な指標となるように設計されています。Kaggleのコンペティションで75個のメダルを獲得した人間は2人しかいません。

生スコア

また、各コンペティションでモデルが達成した生スコアも報告します。これは、コンペティション固有の進捗状況を追跡するのに役立ちますが、各コンペティションで異なる指標を使用しているため、コンペティション間でスコアを集計することは困難です。

表1 メダル獲得のしきい値

Kaggleコンペティションでメダルを獲得するためのしきい値は、各コンペティションに参加しているチームの数によって異なります。MLE-benchでも同じしきい値を実装しています。*チームが500チーム増えるごとにしきい値が1ずつ増加します。出典：Kaggle（2024）。

チーム数	ブロンズ	シルバー	ゴールド
0～99チーム	上位40％	上位20％	上位10％
100～249チーム	上位40％	上位20％	上位10％
250～999チーム	上位100位	上位50位	上位10位
1000チーム以上	上位5％	上位10位 + 0.2％*	上位10位 + 0.2％*

2.3 SETUP

MLE-bench は、評価のために CSV ファイルを提出するだけで済むように設計されており、問題解決に使用される手法には依存しません。ただし、開発者はこのベンチマークでエージェントを評価する際に、特定の詳細を報告することを推奨します。具体的には、開発者は使用したモデルとスキャフォールディング、エージェントがインターネットにアクセスできたかどうか、利用可能なハードウェア、実行時間、エージェントのプロンプトに Kaggle のコンペティションの解答の一部または全部が含まれているかどうか、およびセクション 3 で説明されている実験設定からのその他の大きな逸脱について言及する必要があります。

提出物の検証: 実際の Kaggle のコンペティションでは、参加者は 1 日に最大 5 件の提出物をパブリックリーダーボードに提出することができ、提出物の有効性とスコアを確認することができます。同様に、私たちはエージェントがローカル検証サーバーにアクセスして提出物の有効性を確認できるようにしていますが、このツールはスコアを提供しません（私たちのツールはグレーダーを使用して提出物が有効かどうかを確認し、無効な提出物の場合はエラーメッセージを表示します）。エージェントがこのツールを使用する頻度に制限はありません。

2.3.1 RULES

提出物はエージェントとは別のモデルによって生成されなければなりません。エージェントが自身の知識を使って提出ファイルに直接予測を書き込むことは禁止されています。これは、エージェントが事前に学習したデータから記憶しているラベルを単に思い出すことを防ぎ、エージェントが ML エンジニアリングに従事することを保証します。また、エージェントはオンラインで公開されている解答を見ることも禁止されています。そのような解答は Kaggle や GitHub でよく見つかります。

ルール違反の検出: エージェントがルールを遵守していることを確認するために、GPT-4 を使用してエージェントのログを検査するツールを提供します。具体的には、このツールは、エージェントがモデルを使用せずに手動で提出ファイルを作成したかどうか、支援のために別の外部 LLM API を呼び出したかどうか、または不正なリソースへのアクセスを試みたかどうかを確認します。詳細は付録 A.3 を参照してください。

盗作の検出: 盗作を防ぐために、コード盗作検出ツール Dolos (Maertens et al., 2024) を使用して、エージェントが提出したコードを関連する Kaggle のコンペティションの上位 50 件のノートブックと比較します。これらのノートブックは Kaggle で公開されており、多くの場合、成功した解答が含まれています。ベンチマークの目的上、エージェントがノートブックとの類似性スコアが 60% を超えるコードを提出した場合、その試行は無効とし、さらにレビューするためにフラグを立てます。

これらのルールは不正行為を防ぐために設計されています。セクション 4 では、学習時の汚染によるスコアの水増しのリスクについてさらに詳しく説明し、セクション 6 では、緩和策の限界について説明します。

3 EXPERIMENTS AND RESULTS

このセクションでは、MLE-benchにおけるAIエージェントの評価方法と、主要な実験結果について説明します。

3.1 MAIN EXPERIMENT

主要な実験では、異なる足場とモデルを用いてGPT-40を評価し、最適な設定を決定することを目的としました。

足場の変更:

最適な足場を決定するために、3つのオープンソースの足場を用いてGPT-40を評価しました。

AIDE (Schmidt et al., 2024)
ResearchAgent (MLAB) (Huang et al., 2024b)
CodeActAgent (OpenHands) (Wang et al., 2024)

各足場は、ベンチマークでのパフォーマンスを向上させるために若干修正されました（詳細は付録A.6）。

その結果、GPT-40 (AIDE) は、MLABとOpenHandsの両方よりも平均して多くのメダルを獲得しました（それぞれ8.7% 対 0.8% と 4.4%）。これは、AIDEがKaggleコンペティション専用に設計されているのに対し、他の足場は汎用であるという事実と一致しています。図2は、各足場の軌跡のスニペットを示しています。

モデルの変更:

前の実験で最も性能の高い足場（AIDE）を用いて、基盤となるモデルを変更する実験を行いました。AIDEを用いて、以下の4つの異なるモデルを評価しました。

ol-preview (OpenAI)
GPT-40 (OpenAI)
Claude 3.5 Sonnet (Anthropic)
Llama 3.1 405B (Meta)

その結果、ol-previewが他のすべてのモデルを大幅に上回り、16.9%のコンペティションでメダルを獲得しました。これは、次に優れたモデルの平均メダル獲得数のほぼ2倍です（表2）。Kaggleのグランドマスターになるには5つの金メダルが必要ですが、ol-previewはMLE-benchで平均7つの金メダルを獲得しています。

考察:

すべてのエージェントは、検証サーバーへのアクセス権を持っているにもかかわらず、有効な提出物を生成できないことがよくありました。エージェントのトランスクリプトを分析したところ、プロンプトでそうするように促されているにもかかわらず、必ずしも検証サーバーを使用していないことがわかりました。

MLABとOpenHandsは、24時間かけてスコアを最大限に最適化するように指示されているにもかかわらず、最初の数分以内に実行を終了する傾向があることがわかりました。一方、AIDE足場は、24時間が経過するか、500ノード（許容される最大値）が生成されるまで、モデルにスコアを向上させるように繰り返しプロンプトします。

足場の実装における小さな違いが、大きな違いを生む可能性があります。MLABとOpenHandsには、オープンエンドのタスクを解決するためのさまざまなツールが提供されていますが、この柔軟性により、障害が発生するリスクも高まります。たとえば、MLABは数千行の長さのファイルを検査しようとする場合があり、その結果、コンテキストウィンドウがいっぱいになってしまいました。各エージェントで最も明白な障害の多くは修正しましたが（付録A.6に詳述）、障害モードは残ると予想しています。

3つのエージェントはすべて、計算と時間的制約を戦略に効果的に組み込むことができませんでした。たとえば、マシンのディスクまたはRAMを過負荷にするコマンドを実行し、その結果、プロセスが強制終了され、実行が早期に終了しました。さらに、エージェントは、生成されたコードの実行にかかる時間についてほとんど考慮していませんでした。

これらの実験結果は、AIエージェントがMLエンジニアリングタスクを自動化する上で、足場とモデルの選択が重要であることを示しています。また、エージェントが計算資源と時間的制約を考慮し、堅牢な方法でタスクを実行できるようにするためのさらなる研究が必要であることも示唆しています。

3.2 INCREASING NUMBER OF ATTEMPTS

このセクションでは、試行回数を増やすことでパフォーマンスがどのように変化するかを調べるために、GPT-40 (AIDE) と ol-preview (AIDE) を pass@k 指標 (Chen et al., 2021) を用いて評価しています。

pass@k 指標: 各コンペティションで k 回の試行が許可された場合に、エージェントがメダルを獲得するコンペティションの割合を推定します。試行は n 個のシードからランダムに選択されます。

結果: k ∈ [1,2] の場合の主な結果は図3に示されています。どちらのエージェントも、試行回数を増やすにつれて獲得メダル数の割合が増加していることがわかります。

図3: 許可される試行回数が増加するにつれて、獲得メダル数の割合が増加します。pass@6 の GPT-40 (AIDE) は、pass@1 の ol-preview (AIDE) (16.9%) と同等のスコア (17.0%) を達成しています。注目すべきは、どちらのエージェントも pass@6 のスコアが pass@1 のスコアの約2倍になっていることです。

つまり、この実験では、AIエージェントに 複数の試行を許可することで、コンペティションでメダルを獲得する確率が向上する ことが示されています。これは、エージェントが試行錯誤を通じて学習し、パフォーマンスを向上させることができることを示唆しています。

3.3 VARYING AMOUNT OF COMPUTE AVAILABL

このセクションでは、利用可能な計算資源の量を変化させた場合に、エージェントの性能がどのように影響を受けるかを調査します。

主な実験では、エージェントに単一の24GB A10 GPUへのアクセス権を与えています。一方、Kaggleはユーザーに無料の16GB P100 GPUを提供しており、ユーザーはしばしば独自のハードウェアを使用して競争に参加しています。この実験では、ハードウェアの選択がエージェントの性能に影響を与えるかどうか、あるいは利用可能なハードウェアに応じて戦略を適応させるかどうか（例えば、CPUのみが利用可能な場合はより小さなモデルをトレーニングし、GPUが利用可能な場合はより大きなモデルをトレーニングするなど）を調査します。

我々は、GPT-40（AIDE）の性能を3つの異なるハードウェア設定で比較します。単一のA10 GPUを搭載した標準設定、CPUのみの設定、および2つのA10 GPUを搭載した設定です。

驚くべきことに、GPT-40（AIDE）はすべての実験で同様の性能を示しました。「追加GPU」実験のログを手動でいくつか確認しましたが、GPT-40 AIDEが2番目のGPUを使用しようとした試みは確認できませんでした。結果については表3を参照してください。

表3： 異なるハードウェア構成におけるGPT-40（AIDE）の性能の比較（標準設定では36シード、それ以外は3シードで平均）。

設定	説明	メダル獲得率（％）
CPUのみ	標準設定と同じだが、GPUは提供されない。	9.1 ± 1.0
標準	440GB RAMと1つの24GB A10 GPUを搭載した36 vCPU。	8.7 ± 0.5
追加GPU	標準設定と同じだが、2つの24GB A10 GPUを搭載。	10.2 ± 2.0

簡単に言うと、この実験では、利用可能な計算資源（CPUとGPU）の量を変化させてGPT-40 (AIDE) の性能を評価しました。その結果、計算資源の量を変えてもGPT-40 (AIDE) の性能には大きな差が見られませんでした。これは、GPT-40 (AIDE) が利用可能な計算資源を最大限に活用していない可能性を示唆しています。

3.4 INCREASING TIME AVAILABLE

私たちの実験では、1回の試行あたりの制限時間を24時間に設定していますが、人間の参加者はKaggleのコンテストに数週間または数ヶ月かけることがよくあります。制限時間を長くすることで、エージェントはソリューションを繰り返し改善する時間が増え、モデルのトレーニングにもっと時間をかけることができます。私たちは、GPT-40（AIDE）に1回の試行あたり100時間というより長い制限時間を与え、許可されるノードの最大数を10倍の5,000に増やす実験を行いました。1時間ごとにエージェントの最良の試行のスナップショットを取得し、各スナップショットを評価しました。結果は図4に示されています。

GPT-40（AIDE）は、実行開始から数時間でかなりの数のメダルを獲得し、その後、実行中にゆっくりとメダルを増やしていくことがわかりました。GPT-40（AIDE）が獲得したメダルの数が減少することもありますが、これはAIDEが「最良の」試行を選択するために使用する不完全な方法によるものです。

要約すると、このセクションでは、エージェントに与えられた計算時間を24時間から100時間に増やすことで、パフォーマンス、特にメダル獲得率が向上するかどうかを検証しています。結果として、GPT-40（AIDE）はより多くのメダルを獲得することが示されましたが、AIDEの試行選択方法の不完全性により、メダルの数が減少するケースも見られました。

4 CONTAMINATION & PLAGIARISM

Dekoninckら（2024）は、汚染を人工的に水増しされ、一般化されていないベンチマークパフォーマンスと定義しています。MLE-benchの場合、モデルが特定のコンペティションの公開ソリューションから派生したソリューションを開発したために、結果が人工的に水増しされることを最も懸念しています。

以下のセクションでは、GPT-40のコンペティション優勝者のディスカッション投稿への精通度とそのパフォーマンスとの相関関係を測定することにより、汚染の影響を調査します。また、各コンペティションを認識しにくくするために、難読化された指示を用いたベンチマークのバリエーションも実行します。私たちの実験では、記憶による結果が体系的に水増しされているという証拠は見つかりませんでした。

4.1 FAMILIARITY WITH TOP SOLUTIONS

露骨な盗用は既製の検出ツールを使用して検出できますが、モデルが優勝ソリューションの議論を学習し、その高レベルの戦略を採用した場合、汚染はより微妙な影響を与える可能性があり、これは新しいMLエンジニアリングタスクでは一般化されないパフォーマンスにつながる可能性があります。

この影響をGPT-40のベースモデルで調査するために、コンペティションとその優勝戦略に対するモデルの精通度を測定します。以前の研究では、モデルはトレーニング中に見たドキュメントのトークンに高い確率を割り当てることが示唆されています（Carliniら、2023）。したがって、モデルの特定のドキュメントに対する精通度を、そのドキュメント内の各トークンにモデルが割り当てる平均確率（すべての先行トークンを条件とする）として定義します。各コンペティションについて、モデルのメインコンペティションページと、そのコンペティションで最も人気のある5つのディスカッション投稿10に対する平均精通度を計算します。

図5はこの分析の結果を示しています。GPT-40のベースモデルのコンペティションへの精通度とそのコンペティションでのパフォーマンスとの間に相関関係は見られません。

要約すると、私たちの実験は、GPT-40のKaggleコンペティションへの精通度がそのスコアを体系的に水増ししていないことを示唆しています。さらに、GPT-40がコンペティションの説明の元の形式に過度に依存しているという証拠は見つかりませんでした。これは、汚染の影響が私たちの結果には最小限であることを示唆しています。

注記:

10 通常、これらはコンペティションの優勝者が自分のアプローチを共有する投稿です。

要点:

MLE-benchの結果が、モデルがコンペティションの公開ソリューションから学習した内容によって人工的に水増しされていないかを調査しています。
GPT-40のベースモデルがコンペティションやその優勝戦略にどの程度精通しているかを測定することで、汚染の影響を分析しています。
分析の結果、GPT-40の精通度とパフォーマンスの間に相関関係は見られず、汚染の影響は最小限であることが示唆されています。
コンペティションの説明を難読化してもGPT-40のパフォーマンスに大きな変化はなく、モデルが特定の表現に過度に依存していないことが示唆されています。

4.2 OBFUSCATING COMPETITION DESCRIPTIONS

このセクションでは、汚染が結果にどう影響するかを調査するための追加実験について説明します。モデルが既知の問題に対する記憶された解決策と照合することに依存している場合、競技内容を認識できないようにすることで、この影響を軽減できる可能性があります。

具体的には、MLE-bench の 75 すべての競技内容の説明を手動で書き直し、各競技の出所を曖昧にしながらも重要な情報は保持します。たとえば、Kaggle や競技名への言及をすべて削除し、厳密には必要のないテキストを削除します。付録 A.8 に難読化された説明の例を示します。

これらの難読化された説明で GPT-40 (AIDE) を 10 シードで実行します。その結果、GPT-40 (AIDE) は元の競技内容の説明と難読化された競技内容の説明の両方で同様のスコアを達成することがわかりました。表 4 に結果を示します。

要約すると、私たちの実験は、GPT-40 が Kaggle 競技に精通していることがスコアを体系的に水増ししていないことを示唆しています。さらに、GPT-40 が競技内容の説明の元の形式に過度に依存しているという証拠も見つかりませんでした。これは、汚染の影響が結果に最小限であることを示唆していますが、より微妙な汚染の影響を排除するものではありません。

簡単に言うと、このセクションでは、モデルが競技内容を認識できなくした場合でも、GPT-40 のパフォーマンスに大きな影響がないことを示しています。これは、モデルが事前に学習したデータから競技の解決策を単純に暗記しているのではなく、実際に問題解決能力を持っていることを示唆しています。しかし、より複雑な汚染の影響については、まだ調査の余地があります。

5 RELATED WORK

**ソフトウェアエンジニアリング能力の評価。**Chen et al. (2021), Hendrycks et al. (2021), Austin et al. (2021), Jain et al. (2024) は、自然言語による指示に従ってコードを生成するモデルの能力を評価しています。最先端のモデルはこれらのベンチマークの多くで飽和状態に達していますが、ソフトウェアエンジニアの仕事を自動化するまでには至っていません。これらのベンチマークは、コードベースのナビゲーション、長いコンテキストでの推論、反復とデバッグなどのスキルを考慮せずに、モデルがどれだけうまく分離されたコードブロックを生成できるかを評価します。SWE-bench (Jimenez et al., 2024) は、オープンソースリポジトリからの現実世界のプルリクエストを解決するというタスクをモデルに課すことで、これらの欠点を解消しています。その難易度の高さにもかかわらず、SWE-bench のパフォーマンスは着実に上昇しています (Zhang et al., 2024; factory.ai, 2024)。対照的に、MLE-bench の問題は、よりオープンエンドで難しいことがよくあります (たとえば、未解決の研究課題など)。しかし、MLE-bench も SWE-bench と同様に急速な進歩が見られる可能性があり、初期段階での測定が重要になります。

機械学習エンジニアリング能力の評価MLE-bench は、Kaggle のコンペティションを使用して自律的な機械学習エンジニアリング能力を測定する最初のベンチマークではありません。MLAgentBench (Huang et al., 2024b) は、Kaggle と特注の機械学習タスクから 13 のタスクを取り上げ、それぞれにシンプルなベースラインソリューションを提供し、エージェントがベースラインソリューションよりも少なくとも 10% の改善を達成できる頻度を評価します。対照的に、MLE-bench は、より複雑で多くのタスクを提供し、エージェントはゼロからタスクに取り組む必要があります。

Weco Al の AIDE (Schmidt et al., 2024) のレポートでは、Kaggle のデータサイエンスコンペティションで人間の競合他社の 50% 以上を上回ると主張しています。私たちの実験では AIDE がトップの scaffold であることがわかりましたが、私たちの実験で使用した同様のモデル (GPT-40、claude-3.5-sonnet など) に基づくと、AIDE の発表時点で利用可能な最先端モデルは、データセットの約 10% でしか中央値スコアを超えていませんでした。これは、表形式のデータタスクに焦点を当てた Weco Al のデータセットよりも、私たちのコンペティションの選択の方が難しいことを示唆していますが、彼らのデータセットは公開されていないため、確認することはできません。

私たちと同時に行われた研究では、DSBench (Jing et al., 2024) も Kaggle のコンペティションのベンチマークを導入していますが、Weco Al のデータセットと同様に、DSBench はデータサイエンスのタスクに焦点を当てています。私たちのデータセットには重複する部分もありますが、DSBench のフィルタリング基準では、タスク作成を自動化するために使用されるシンプルなテンプレートに適合しないデータセットを持つコンペティションはすべて除外されます。これにより、非標準フォーマットの興味深いコンペティションの多くが除外されます。対照的に、MLE-bench の各コンペティションは、私たちのチームによって手動で移植されており、より多様でやりがいのあるタスクになっています。

AI エージェントの評価SWE-bench、MLAgentBench、MLE-bench は、ソフトウェア分野における AI エージェントを評価するマルチステップベンチマークです。ここでは、LM、検索、外部ツールなどのコンポーネントがコードを介して「scaffold」され、単一の推論呼び出しでは達成できない新しいレベルの自律性を解き放ちます (Zaharia et al., 2024)。AgentBench (Liu et al., 2023) は、Linux OS の権限の編集など、エージェントが複数ターンの課題を完了するための環境を提供します。GAIA (Mialon et al., 2023) は、現実世界とのエージェントの相互作用に焦点を当て、人間にとっては概念的に単純ですが、現在の AI システムにとっては難しい 466 の質問を提供します。Gioacchini et al. (2024) は、拡張性を考慮して設計されたモジュール式エージェント評価フレームワークである AgentQuest を提案し、Kapoor et al. (2024) は、これまでのエージェント評価の取り組みの分析を提供しています。

6 LIMITATIONS

汚染と盗用 MLE-Benchのデータセットは公開されているKaggleのコンペティションで構成されているため（付録A.7）、モデルがコンペティションの詳細、ソリューション、さらにはテストセットを含むすべての公開Kaggle資料でトレーニングされている可能性があります。そのため、モデルが回答やソリューションに関する直感を記憶しているために、MLE-Benchがモデルの能力を過大評価しているリスクがあります。上位参加者のコードやテストラベルの盗用を防ぐための対策（ログ分析と盗用検出器）はありますが、高レベルの戦略の再利用を検出することは困難です。私たちの実験（セクション4）では、GPT-40の汚染による体系的な影響は見られませんでしたが、将来のモデルについては保証できません。将来の研究では、汚染の問題に対処するために、MLE-Benchを新しいKaggleコンペティションで定期的に更新することを検討する必要があるかもしれません。

AI R＆D能力の範囲 AI R＆Dの自動化による加速リスクをより深く理解するためにMLE-Benchを構築しましたが、MLE-Benchに含まれるタスクは、AI R＆Dに必要な能力の全範囲を網羅しているわけではありません。MLE-Benchは、明確な問題ステートメント、クリーンで文書化されたデータセット、明確な最適化メトリックを提供するKaggleコンペティションを選択しています。一方、現実世界のAI R＆Dでは、明確な問題ステートメントがない場合が多く、データセットとメトリックを把握すること自体が問題の一部です。それでも、MLE-Benchは大規模なマルチモーダルデータセットの準備、長時間実行されるトレーニングスクリプトの管理、パフォーマンスの低いモデルのデバッグなど、AI R＆Dに関連する多くのコアコンピテンシーを評価します。

実際のコンペティションとの違い MLE-Benchは、Kaggleの元のコンペティションとは異なるトレーニングテスト分割を使用し、グレーディングコードを再実装しています。これは、私たちのスコアがKaggleのヒューマンリーダーボードとどの程度比較できるかについての懸念を引き起こします。新しいトレーニングセットとテストセットが元のセットと同様の分布を維持するように、コンペティションの実装には注意を払っており、サンプルとゴールドの提出がヒューマンリーダーボードと一致する結果につながることを確認しています。さらに、アルゴリズムの進歩により、古いコンペティションが簡単になる可能性があるという懸念もあります。これは、今日の知識とツールを持つエージェントが元の参加者よりも有利になるためです。これを考慮して、今日のMLエンジニアの観点からコンペティションに複雑さのレベルをラベル付けしており、能力が向上するにつれて複雑さのアノテーションを更新する必要があるかもしれません。

アクセシビリティ MLE-Benchは、実行に特にリソースを消費するベンチマークです。コンペティションの試行ごとに24時間というメインの実験設定を1回実行するには、24時間×75コンペティション= 1800 GPU時間の計算が必要です。さらに、エージェントを全期間実行すると、非常に多くのトークンが必要になります。私たちの実験では、ol-previewとAIDEは、75のコンペティションの1つのシードで平均127.5Mの入力トークンと15.0Mの出力トークンを使用しました。

7 IMPACT ON AGI PREPAREDNESS

AIエージェントが自律的にML研究を実行できるようになれば、医療、気候科学などの分野における科学的進歩の加速、モデルの安全性とアラインメント研究の加速、新製品開発を通じた経済成長の促進など、多くのプラスの影響をもたらす可能性があります。質の高い研究を自動的に行うエージェントの能力は、経済における変革のステップとなる可能性があります。

しかし、オープンエンドのML研究タスクを実行できるエージェント、特に独自のトレーニングコードを改善できるレベルのエージェントは、人間の研究者よりもはるかに速くフロンティアモデルの能力を向上させる可能性があります。イノベーションが私たちの影響を理解する能力よりも速く生み出される場合、壊滅的な害や誤用を引き起こす可能性のあるモデルを、そのようなモデルを保護、調整、制御するための並行した開発なしに開発してしまうリスクがあります。

MLE-benchの大部分を解決できるモデルは、多くのオープンエンドのMLタスクを実行する能力を持っている可能性が高いと考えています。私たちは、言語モデルのエージェント能力の研究を支援し、研究所における加速リスクの透明性を高めるために、MLE-benchをオープンソース化しています。そうすることで、私たちはMLE-benchの限界を認識し、自動化されたML研究能力の評価、特に大規模言語モデルをトレーニングする研究者のワークフローに特化した評価の開発を強く奨励します。

8 CONCLUSION

MLE-benchは、Kaggleの難度の高いコンペティションを用いて、AIエージェントの機械学習エンジニアリングタスクにおける能力を評価するために設計されたベンチマークです。Kaggleコンペティションへの参加体験を忠実にシミュレートすることで、MLE-benchはエージェントと人間の競合他社を直接比較することを可能にします。私たちの実験では、最先端のモデルとエージェントの足場組み（具体的には、ol-previewとAIDEの組み合わせ）が、コンペティションの16.9%でメダルを獲得できることが示されました。MLE-benchをオープンソース化することで、エージェントの機械学習エンジニアリング能力の評価に関するさらなる研究を促進することを目指しています。最終的には、私たちの仕事が、より強力なモデルを将来安全に展開するために不可欠な、エージェントが自律的に機械学習エンジニアリングタスクを実行する能力についてのより深い理解に貢献することを願っています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up