Cursor社のブログ記事に基づいた実験をまとめます。
1. 実験の背景と「壮大な失敗」
Cursor社は、数百もの超優秀なAIエージェントを動員し、100万行以上のコードを生成させる大規模な自律型開発実験を行いました。
-
初期アプローチ(動的な協調)
全てのエージェントを平等に扱い、階層のないフラットな組織で開発を進めようとしました。 -
失敗の原因1(技術的渋滞)
ファイルの重複編集を防ぐ「ロック」機能がボトルネックとなり、20体中2〜3体しか稼働できない「交通渋滞」が発生しました。 -
失敗の原因2(責任逃れ)
階層がなく責任の所在が曖昧だったため、AIがリスクを避けるようになりました。重要で難しいタスクを避け、簡単で安全な修正ばかりを繰り返すという、人間のような「責任逃れ」が起きました。
2. 成功を導いた「階層構造」の導入
失敗を受け、AIチームに人間社会のような「上司と部下」の役割分担を持ち込むことで劇的な改善が見られました。
- プランナー・ワーカーモデル
- プランナー (上司役) プロジェクト全体を俯瞰し、タスクを論理的に分解して具体的な指示を出します。難しい課題も躊躇なく計画に組み込みます。
- ワーカー (部下役) 割り当てられた単一のタスクに集中します。全体像を気にせず専門分野に没頭できるため、並行作業の効率が上がりました。
- ジャッジ (監査役) 成果物の品質をチェックし、プロジェクトを進めるべきか判断する役割を担います。
3. 実験によって得られた驚異的な成果
この新しい体制により、人間では考えられないスピードで成果が上がりました。
-
ブラウザのゼロからの構築
わずか1週間で、1,000ファイル・計100万行以上のコードを生成し、機能するブラウザの基盤を構築しました。 -
大規模リファクタリング
人間なら3ヶ月かかるCursorエディタのフレームワーク移行を、3週間で完了させました。26万行の追加と19万行の削除を行い、テストもパスしました。 -
パフォーマンス改善
ビデオレンダリング機能をRust言語で書き直し、実行速度を25倍に向上させました。
4. AI開発における重要な教訓
-
適材適所のモデル選択
コード生成に特化したモデルよりも、汎用的な大規模モデルの方が「プランナー(上司)」としての管理・指示能力に長けていました。 -
シンプルさの追求
複雑な調整役を増やすよりも、ワーカー自身に問題解決を任せるなど、シンプルな設計の方が効率的でした。 -
プロンプトの重要性
最終的にAIチームの振る舞いを決めるのは人間が書く「プロンプト(指示)」の質であり、AI時代の重要スキルは「何をすべきか的確に伝える言語化能力」であると結論づけています。
5. 今後の課題と展望
現在は人間組織を模倣した階層構造が有効ですが、今後は「ドリフト(集中力の欠如)」などの課題を解決しつつ、AIならではの全く新しい協力体制(ダイナミックなネットワーク構造など)が生まれる可能性も示唆されています。