はじめに
Google DeepMindが2025年5月に発表した「AlphaEvolve」は、Geminiを活用した進化的コーディングエージェントです。アルゴリズムのソースコードを「ゲノム」として扱い、LLMがコードを自律的に変異・改善することで、人間の専門家が設計したアルゴリズムを超える新手法を発見します。
最も注目すべき成果の一つが、4×4複素行列乗算を48スカラー乗算で実現したこと。これはStrassen法(1969年)の49乗算から改善した世界初の成果であり、56年ぶりの進歩です。さらに2026年に入り、AlphaEvolveをマルチエージェント強化学習(MARL)に応用した研究成果が公開され、ゲーム理論アルゴリズムの自律発見という新たな可能性が示されました。
この記事では、AlphaEvolveの仕組み・技術的詳細・応用例を公式ドキュメントと論文に基づいて解説します。
この記事で学べること
- AlphaEvolveがどのようにアルゴリズムを「進化」させるか
- VAD-CFRとSHOR-PSOROという自律発見アルゴリズムの概要
- AlphaEvolveが実現した数学・科学・工学での成果
- AIがアルゴリズム設計に与えるインパクト
対象読者
- AIエージェントや自動化に興味のあるエンジニア
- ゲーム理論・強化学習の最新動向を追っている方
- LLMを活用したアルゴリズム研究に興味がある方
TL;DR
- AlphaEvolveはGeminiを活用してアルゴリズムのソースコードを進化させるエージェント
- 56年ぶりの行列乗算改善(48乗算、Strassenの49から)を達成
- ゲーム理論アルゴリズム(VAD-CFR、SHOR-PSRO)を自律発見し、人間設計の手法を上回る
- コードの「意味的変換」を探索するため、パラメータチューニングを超えた発見が可能
AlphaEvolveとは
AlphaEvolveはGoogle DeepMindが2025年5月に発表した、Geminiを活用した進化的コーディングエージェントです。
論文タイトル:「AlphaEvolve: A coding agent for scientific and algorithmic discovery」(arXiv:2506.13131、2025年6月公開)
基本的なアイデア
従来のアルゴリズム設計は、人間の専門家がアイデアを考え、コードを書き、実験で検証するという反復プロセスでした。AlphaEvolveはこのプロセスをLLMで自動化します。
既存アルゴリズム(コード)
↓
LLMがコードの一部を変更(変異)
↓
変異後のアルゴリズムを評価(性能スコア)
↓
優れた変異体を「親」として次世代生成
↓
(繰り返し)→ 優れたアルゴリズムを発見
重要なのは、AlphaEvolveがスカラーパラメータを調整するのではなく、コードそのものを書き換える点です。これにより、パラメータチューニングでは到達できない「意味的に新しい」アルゴリズムが発見できます。
利用しているGeminiモデル
AlphaEvolveはGemini FlashとGemini Proのアンサンブルを使用しています。Flash系は幅広い候補を高速生成する役割を、Pro系は深い洞察と重要な変異提案を担います。MARL応用論文ではGemini 2.5 Proを突然変異演算子として使用しています。LLMはコードの変異(「変異LLM」)と、どの変異体を選択するかの判断(「ランキングLLM」)の両方の役割を担います。
主要な技術的成果
1. 行列乗算の56年ぶり改善
AlphaEvolveは4×4複素行列の乗算を48スカラー乗算で実現する手順を発見しました。
| アルゴリズム | スカラー乗算数 | 発表年 |
|---|---|---|
| 標準アルゴリズム | 64 | - |
| Strassenアルゴリズム | 49 | 1969年 |
| AlphaEvolve発見 | 48 | 2026年 |
これは1969年のStrassen法以来、56年ぶりの改善です。行列乗算は機械学習・科学計算の根幹であり、このような改善は計算効率に大きな影響をもたらす可能性があります。
2. Googleデータセンターの最適化
AlphaEvolveはGoogleのデータセンター(Borgスケジューラ)向けスケジューリングアルゴリズムの改善にも適用されており、世界規模で平均0.7%の計算資源回収を1年以上継続して達成しています。
3. LLM・AI訓練の高速化
AlphaEvolveを動かすGemini自身の訓練カーネル(行列乗算)を最適化し、23%の高速化を達成。また、FlashAttentionカーネルでは最大32.5%の高速化を実現。これらの改善によりGemini全体の訓練時間を約1%短縮しています。AIが自分自身を改善するための手法を発見するという再帰的な応用です。
4. 数学的未解決問題
50以上の数学的開放問題に適用した結果、約75%で最先端解を再発見し、20%では改善を達成。11次元のキッシング数問題では新たな下限値593を発見しています。
ゲーム理論への応用: VAD-CFRとSHOR-PSRO
AlphaEvolveはマルチエージェント強化学習(MARL)の分野でも画期的な成果を上げています。ゲーム理論の中核的なアルゴリズムを自律発見しました。
背景: CFRとPSROとは
CFR(Counterfactual Regret Minimization): ポーカーなどの不完全情報ゲームでナッシュ均衡に収束するアルゴリズム。後悔最小化を繰り返すことで、どのプレイヤーも戦略を一方的に変えても得をしない均衡に到達する。
PSRO(Policy Space Response Oracles): 複数のエージェントが互いのベストレスポンスを学習することでナッシュ均衡を近似するフレームワーク。
AlphaEvolveが発見したVAD-CFR
AlphaEvolveは「VAD-CFR(Volatility-Adaptive Discounted CFR)」という新しいCFRの変種を自律的に発見しました。3つの非直感的な革新点を持ちます:
1. 揮発性適応型ディスカウント
静的な割引係数を適用するのではなく、瞬間的後悔量のEWMA(指数加重移動平均)に基づいて動的に割引パラメータを調整します。戦略が不安定な時期(揮発性が高い)には割引を増やして不安定な履歴を素早く忘れます。
2. 非対称インスタントブースト
正の瞬間後悔に1.1倍のブーストを適用します。これにより即時的な利益機会の活用が促進され、累積ラグを避けられます。
3. ハードウォームスタート
ポリシー平均化を1イテレーション目ではなく500イテレーション後から開始します。また瞬間後悔量による重みづけを用いることで、初期段階のノイズを除去します。
ベンチマーク結果:
- 訓練ゲーム: 3-player Kuhn Poker、2-player Leduc Poker、4-card Goofspiel、5-sided Liars Dice
- テストゲーム: 4-player Kuhn Poker、3-player Leduc Poker、5-card Goofspiel、6-sided Liars Dice
- 結果: CFR+、DCFR、PCFR+、DPCFR+を多くのドメインで上回る
- 3-player Leduc Pokerで Exploitability 10⁻³以下を達成(他手法は高い値で停滞)
AlphaEvolveが発見したSHOR-PSRO
PSROの改良版「SHOR-PSRO(Smoothed Hybrid Optimistic Regret PSRO)」も自律発見されました。
ハイブリッドメタソルバー: 後悔最小化(ORM)とSoftmaxの組み合わせ
σ_hybrid = (1 − λ) · σ_ORM + λ · σ_Softmax
- σ_ORMは安定した後悔最小化を提供
- σ_Softmaxはボルツマン分布で高報酬戦略を積極的に探索
動的アニーリング: λは訓練中に0.3→0.05へ動的に減少。多様性ボーナスも0.05→0.001に減衰します。
ベンチマーク結果: 11ゲーム中8ゲームで既存ソルバー(Uniform、Nash、AlphaRank、PRD、RM)を上回る。
AlphaEvolveのアーキテクチャ詳細
コードを「ゲノム」として扱う
AlphaEvolveでCFRの改良を探索する場合、以下の3つのPythonクラスが「進化対象」となります:
- 後悔の累積方法を制御するクラス
- 後悔からポリシーを導出するクラス
- ポリシーの累積方法を制御するクラス
PSROの場合は:
- TrainMetaStrategySolver(訓練時メタ戦略)
- EvalMetaStrategySolver(評価時メタ戦略)
これらのインターフェースは既存の全ベースラインソルバーを特殊ケースとして含むため、アルゴリズム空間全体を検索できます。
検証プロトコル
過学習を防ぐため、訓練ゲームとテストゲームを厳密に分離しています:
| セット | 使用目的 |
|---|---|
| 訓練ゲーム(4種類) | アルゴリズム進化の適合度評価 |
| テストゲーム(11種類) | 汎化性能の評価(手動チューニングなし) |
意義と今後の展望
AlphaEvolveが示す最大の意義は、LLMがコードの意味的変換を探索することで、パラメータチューニングを超えた全く新しいアルゴリズムを発見できるという点です。
従来手法との違い
| 手法 | 探索内容 | 限界 |
|---|---|---|
| ハイパーパラメータ最適化 | スカラー値 | 既存アルゴリズム構造の範囲内 |
| プログラム合成 | 固定文法・演算子 | 探索空間が制限される |
| AlphaEvolve | コード全体の意味 | 人間が思いつかない変換を発見 |
応用の可能性
- 科学計算: 行列演算・数値積分・微分方程式ソルバーの効率化
- 機械学習: 最適化アルゴリズム(SGD、Adam等)の自動改良
- ゲーム理論: 複雑なゲームのナッシュ均衡計算の高速化
- インフラ最適化: クラウド・データセンターのスケジューリング
まとめ
AlphaEvolveは「LLMがコードを進化させる」という新しいパラダイムを実証しました:
- 56年ぶりの数学的突破: 4×4複素行列乗算を48乗算で実現(Strassen法から改善)
- ゲーム理論の自律改善: VAD-CFRとSHOR-PSOROを自律発見し、人間設計手法を上回る
- 実用的応用: Googleデータセンターで平均0.7%の計算資源回収を1年以上継続
- LLM訓練の高速化: Gemini訓練カーネル23%高速化、FlashAttention最大32.5%高速化
- 数学的発見: 50以上の開放問題で75%再発見・20%改善
AlphaEvolveのアプローチは、AIが単なる問題解決ツールから「アルゴリズムの設計者」へと進化する一歩を示しています。公式論文と実験結果が公開されており、この分野の研究者・エンジニアにとって重要な参照点となるでしょう。
参考リンク
- AlphaEvolve公式ブログ — Google DeepMind — はじめに・主要成果の概要で引用
- AlphaEvolve論文 (arXiv:2506.13131) — 技術詳細・行列乗算成果で引用
- MARL応用論文 (arXiv:2602.16928) — VAD-CFR・SHOR-PSRO詳細で引用
- AlphaEvolveによるゲーム理論アルゴリズム発見 — MarkTechPost — ゲーム理論応用の概要で引用