1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

W&B AI Agent ワークショップ TOKYO 2026 参加レポ:強化学習とプロンプト自己改善ループを体験した

1
Last updated at Posted at 2026-06-19

2セッション構成のAIエージェントワークショップに参加してきました。テーマは一言で言うと「AIエージェントをどう良くしていくか」。ただし、両セッションのアプローチは対照的で、重みで学習させる(強化学習)プロンプトを人間が直す(自己改善ループ) かという面白い対比になっていました。

セッション1 (art-e-nano) セッション2 (discovery-forge)
改善手段 強化学習(モデルの重みを更新) プロンプト編集(人間のアノテ駆動)
主役ツール W&B Models / Serverless RL W&B Weave / W&B Skills
キーワード Agentic RL Eval-Centric / Observability

セッション1:Agentic RL でメール検索エージェントを訓練する

何をやるのか

Enronメールデータセット(実在の企業メール約22万通)を検索して質問に答えるエージェントを、GRPO(強化学習アルゴリズムの一種)で訓練します。GPUは不要で、W&B Serverless RL がクラウド側で処理してくれます。

エージェントが使える3つのツール

search_emails(query, sender, date_range, ...)  # キーワード・差出人・日付で全文検索
read_email(message_id)                          # message_id を指定して本文を読む
return_final_answer(answer, sources)            # 出典(message_id)付きで最終回答

報酬設計

ART-E準拠のルーブリック報酬(-2〜+2)を使います。

  • 正しく答え、正しいメールを引用 → 加点
  • "I don't know" と回答を諦める → IDK_PENALTY によるペナルティ

観察するメトリクス(W&B Models上)

メトリクス 意味
val/answer_correct 主指標。正答率が改善しているか
val/sources_correct 正しいメールを引用できた率
val/returned_i_dont_know 急増=方策崩壊の兆候

実行コマンド

MODEL_NAME=art-e-nano-$(date +%Y%m%d-%H%M) uv run python -m art_e.train

やってみた結果

IDK_PENALTY を 0 と 0.2 の2パターンで比較実走しました。

  • ペナルティあり(0.2): ピーク正答率 82% と高いが学習が不安定
  • ペナルティなし(0): 安定するが精度は低め

これは強化学習の典型的な挙動で、「訓練を続ければ必ず良くなるわけではない」ことをcheckpointごとの挙動から体感できました。単一の最高スコアを追うのではなく、変化の観察を重視するという視点が印象的でした。


セッション2:自己改善するAI開発の体制構築

何をやるのか

「毎日、実験自動化ツールをWeb調査して新しいツールを発見・プロファイル化する ResearcherAgent」を題材に、アノテーション → プロンプト改善 → 再評価 という自己改善ループを体験します。

改善対象はプロンプト(researcher.md)のみ。Pythonコードやデータセット・スコアラーは触りません。

このエージェントの最重要ジョブ

「そのツールは本当に実験を実行するのか?」を判定するスコープフィルタです。

最も多い失敗パターン:

ディープリサーチツール(Web検索+要約だけ)やキュレーションリストを誤って受理してしまう

これがレビュアーがアノテーションする主対象になります。

4ステップの自己改善ループ

① main.py で調査ループ実行
    ↓ エージェントの動きが Weave にトレースされる
② Weave UI でトレースを人間がアノテーション
    ↓ 「スコープ外ツールの誤検出」を指摘
③ W&B Skills でフィードバックから researcher.md を改善
    ↓ Claude Code 等のコーディングエージェントが自動で書き直す
④ evaluate.py でオフライン評価 → 改善を定量確認

観測基盤

  • OpenAI Agents SDK + Weave で自動トレース連携
  • データセット・プロンプトは Weave にバージョン登録 され、改善前後を比較可能
  • コスト上限 --max-cost-usd(デフォルト$20)で暴走防止

2セッション比べてみての感想

セッション1(強化学習) は、モデルの重みを直接更新するアプローチ。面白味ありましたが、それなりに専門知識が必要で、少し難易度高めな印象でした。「学習が必ずしも単調に改善するわけではない」という強化学習の本質を体感できるのは面白かったです。

セッション2(プロンプト自己改善) は、W&B Weave でエージェントの挙動を観察しながら、Coding Agent(Claude Code等)がプロンプトを自動改善するループ。プロンプトチューニングで改善できる点が直感的で、こちらの方とっつきやすかったです。

どちらのアプローチも「観測 → 改善 → 評価」というループの重要性を強調していました。W&B はそのための基盤(可視化・バージョン管理・評価)を提供していて、実際に使いながら体験できる良いワークショップでした。


まとめ

観点 セッション1(Agentic RL) セッション2(自己改善ループ)
難易度 ★★★★☆ ★★★☆☆
必要スキル 強化学習の基礎知識 プロンプトエンジニアリング
改善の対象 モデルの重み プロンプト
主なツール W&B Models / Serverless RL W&B Weave / W&B Skills
体感しやすさ 結果の解釈に慣れが必要 直感的に理解しやすい

Image (1).jpg

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?