2セッション構成のAIエージェントワークショップに参加してきました。テーマは一言で言うと「AIエージェントをどう良くしていくか」。ただし、両セッションのアプローチは対照的で、重みで学習させる(強化学習) か プロンプトを人間が直す(自己改善ループ) かという面白い対比になっていました。
| セッション1 (art-e-nano) | セッション2 (discovery-forge) | |
|---|---|---|
| 改善手段 | 強化学習(モデルの重みを更新) | プロンプト編集(人間のアノテ駆動) |
| 主役ツール | W&B Models / Serverless RL | W&B Weave / W&B Skills |
| キーワード | Agentic RL | Eval-Centric / Observability |
セッション1:Agentic RL でメール検索エージェントを訓練する
何をやるのか
Enronメールデータセット(実在の企業メール約22万通)を検索して質問に答えるエージェントを、GRPO(強化学習アルゴリズムの一種)で訓練します。GPUは不要で、W&B Serverless RL がクラウド側で処理してくれます。
- コード: nejumi/art-e-nano
- 元プロジェクト: OpenPipe ART-E(1〜2時間で完走できる規模に軽量化)
- データセット: corbt/enron_emails_sample_questions
- 学習基盤: W&B Training / Serverless RL
エージェントが使える3つのツール
search_emails(query, sender, date_range, ...) # キーワード・差出人・日付で全文検索
read_email(message_id) # message_id を指定して本文を読む
return_final_answer(answer, sources) # 出典(message_id)付きで最終回答
報酬設計
ART-E準拠のルーブリック報酬(-2〜+2)を使います。
- 正しく答え、正しいメールを引用 → 加点
-
"I don't know"と回答を諦める →IDK_PENALTYによるペナルティ
観察するメトリクス(W&B Models上)
| メトリクス | 意味 |
|---|---|
val/answer_correct |
主指標。正答率が改善しているか |
val/sources_correct |
正しいメールを引用できた率 |
val/returned_i_dont_know |
急増=方策崩壊の兆候 |
実行コマンド
MODEL_NAME=art-e-nano-$(date +%Y%m%d-%H%M) uv run python -m art_e.train
やってみた結果
IDK_PENALTY を 0 と 0.2 の2パターンで比較実走しました。
- ペナルティあり(0.2): ピーク正答率 82% と高いが学習が不安定
- ペナルティなし(0): 安定するが精度は低め
これは強化学習の典型的な挙動で、「訓練を続ければ必ず良くなるわけではない」ことをcheckpointごとの挙動から体感できました。単一の最高スコアを追うのではなく、変化の観察を重視するという視点が印象的でした。
セッション2:自己改善するAI開発の体制構築
何をやるのか
「毎日、実験自動化ツールをWeb調査して新しいツールを発見・プロファイル化する ResearcherAgent」を題材に、アノテーション → プロンプト改善 → 再評価 という自己改善ループを体験します。
- コード: wandb/discovery-forge(mainブランチが出発点)
- 学習教材: wandb/ai_engineering_dojo / ai-eng-dojo.com
改善対象はプロンプト(researcher.md)のみ。Pythonコードやデータセット・スコアラーは触りません。
このエージェントの最重要ジョブ
「そのツールは本当に実験を実行するのか?」を判定するスコープフィルタです。
最も多い失敗パターン:
ディープリサーチツール(Web検索+要約だけ)やキュレーションリストを誤って受理してしまう
これがレビュアーがアノテーションする主対象になります。
4ステップの自己改善ループ
① main.py で調査ループ実行
↓ エージェントの動きが Weave にトレースされる
② Weave UI でトレースを人間がアノテーション
↓ 「スコープ外ツールの誤検出」を指摘
③ W&B Skills でフィードバックから researcher.md を改善
↓ Claude Code 等のコーディングエージェントが自動で書き直す
④ evaluate.py でオフライン評価 → 改善を定量確認
観測基盤
- OpenAI Agents SDK + Weave で自動トレース連携
- データセット・プロンプトは Weave にバージョン登録 され、改善前後を比較可能
- コスト上限
--max-cost-usd(デフォルト$20)で暴走防止
2セッション比べてみての感想
セッション1(強化学習) は、モデルの重みを直接更新するアプローチ。面白味ありましたが、それなりに専門知識が必要で、少し難易度高めな印象でした。「学習が必ずしも単調に改善するわけではない」という強化学習の本質を体感できるのは面白かったです。
セッション2(プロンプト自己改善) は、W&B Weave でエージェントの挙動を観察しながら、Coding Agent(Claude Code等)がプロンプトを自動改善するループ。プロンプトチューニングで改善できる点が直感的で、こちらの方とっつきやすかったです。
どちらのアプローチも「観測 → 改善 → 評価」というループの重要性を強調していました。W&B はそのための基盤(可視化・バージョン管理・評価)を提供していて、実際に使いながら体験できる良いワークショップでした。
まとめ
| 観点 | セッション1(Agentic RL) | セッション2(自己改善ループ) |
|---|---|---|
| 難易度 | ★★★★☆ | ★★★☆☆ |
| 必要スキル | 強化学習の基礎知識 | プロンプトエンジニアリング |
| 改善の対象 | モデルの重み | プロンプト |
| 主なツール | W&B Models / Serverless RL | W&B Weave / W&B Skills |
| 体感しやすさ | 結果の解釈に慣れが必要 | 直感的に理解しやすい |
