W&B AI Agent ワークショップ TOKYO 2026 参加レポ：強化学習とプロンプト自己改善ループを体験した

Last updated at 2026-06-19Posted at 2026-06-19

2セッション構成のAIエージェントワークショップに参加してきました。テーマは一言で言うと「AIエージェントをどう良くしていくか」。ただし、両セッションのアプローチは対照的で、重みで学習させる（強化学習） か プロンプトを人間が直す（自己改善ループ） かという面白い対比になっていました。

	セッション1 (art-e-nano)	セッション2 (discovery-forge)
改善手段	強化学習（モデルの重みを更新）	プロンプト編集（人間のアノテ駆動）
主役ツール	W&B Models / Serverless RL	W&B Weave / W&B Skills
キーワード	Agentic RL	Eval-Centric / Observability

セッション1：Agentic RL でメール検索エージェントを訓練する

何をやるのか

Enronメールデータセット（実在の企業メール約22万通）を検索して質問に答えるエージェントを、GRPO（強化学習アルゴリズムの一種）で訓練します。GPUは不要で、W&B Serverless RL がクラウド側で処理してくれます。

コード: nejumi/art-e-nano
元プロジェクト: OpenPipe ART-E（1〜2時間で完走できる規模に軽量化）
データセット: corbt/enron_emails_sample_questions
学習基盤: W&B Training / Serverless RL

エージェントが使える3つのツール

search_emails(query, sender, date_range, ...)  # キーワード・差出人・日付で全文検索
read_email(message_id)                          # message_id を指定して本文を読む
return_final_answer(answer, sources)            # 出典(message_id)付きで最終回答

報酬設計

ART-E準拠のルーブリック報酬（-2〜+2）を使います。

正しく答え、正しいメールを引用 → 加点
"I don't know" と回答を諦める → IDK_PENALTY によるペナルティ

観察するメトリクス（W&B Models上）

メトリクス	意味
`val/answer_correct`	主指標。正答率が改善しているか
`val/sources_correct`	正しいメールを引用できた率
`val/returned_i_dont_know`	急増＝方策崩壊の兆候

実行コマンド

MODEL_NAME=art-e-nano-$(date +%Y%m%d-%H%M) uv run python -m art_e.train

やってみた結果

IDK_PENALTY を 0 と 0.2 の2パターンで比較実走しました。

ペナルティあり（0.2）: ピーク正答率 82% と高いが学習が不安定
ペナルティなし（0）: 安定するが精度は低め

これは強化学習の典型的な挙動で、「訓練を続ければ必ず良くなるわけではない」ことをcheckpointごとの挙動から体感できました。単一の最高スコアを追うのではなく、変化の観察を重視するという視点が印象的でした。

セッション2：自己改善するAI開発の体制構築

何をやるのか

「毎日、実験自動化ツールをWeb調査して新しいツールを発見・プロファイル化する ResearcherAgent」を題材に、アノテーション → プロンプト改善 → 再評価 という自己改善ループを体験します。

コード: wandb/discovery-forge（mainブランチが出発点）
学習教材: wandb/ai_engineering_dojo / ai-eng-dojo.com

改善対象はプロンプト（researcher.md）のみ。Pythonコードやデータセット・スコアラーは触りません。

このエージェントの最重要ジョブ

「そのツールは本当に実験を実行するのか？」を判定するスコープフィルタです。

最も多い失敗パターン：

ディープリサーチツール（Web検索＋要約だけ）やキュレーションリストを誤って受理してしまう

これがレビュアーがアノテーションする主対象になります。

4ステップの自己改善ループ

① main.py で調査ループ実行
    ↓ エージェントの動きが Weave にトレースされる
② Weave UI でトレースを人間がアノテーション
    ↓ 「スコープ外ツールの誤検出」を指摘
③ W&B Skills でフィードバックから researcher.md を改善
    ↓ Claude Code 等のコーディングエージェントが自動で書き直す
④ evaluate.py でオフライン評価 → 改善を定量確認

観測基盤

OpenAI Agents SDK + Weave で自動トレース連携
データセット・プロンプトは Weave にバージョン登録 され、改善前後を比較可能
コスト上限 --max-cost-usd（デフォルト$20）で暴走防止

2セッション比べてみての感想

セッション1（強化学習） は、モデルの重みを直接更新するアプローチ。面白味ありましたが、それなりに専門知識が必要で、少し難易度高めな印象でした。「学習が必ずしも単調に改善するわけではない」という強化学習の本質を体感できるのは面白かったです。

セッション2（プロンプト自己改善） は、W&B Weave でエージェントの挙動を観察しながら、Coding Agent（Claude Code等）がプロンプトを自動改善するループ。プロンプトチューニングで改善できる点が直感的で、こちらの方とっつきやすかったです。

どちらのアプローチも「観測 → 改善 → 評価」というループの重要性を強調していました。W&B はそのための基盤（可視化・バージョン管理・評価）を提供していて、実際に使いながら体験できる良いワークショップでした。

まとめ

観点	セッション1（Agentic RL）	セッション2（自己改善ループ）
難易度	★★★★☆	★★★☆☆
必要スキル	強化学習の基礎知識	プロンプトエンジニアリング
改善の対象	モデルの重み	プロンプト
主なツール	W&B Models / Serverless RL	W&B Weave / W&B Skills
体感しやすさ	結果の解釈に慣れが必要	直感的に理解しやすい

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up