0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

エージェントを訓練せず強くする、Qwen-AgentWorldという世界モデル

0
Posted at

エージェントを強くしたいなら、ふつうはエージェントを訓練する。ところがAlibabaのQwenチームが6月下旬に公開したQwen-AgentWorldは、行動を出力する訓練をほとんどしていないのに、7つのベンチマークでエージェント性能を押し上げた。何を学ばせたのかというと、行動ではなく「環境の反応」だ。端末にコマンドを打ったら何が返るか、APIを叩いたらどんなJSONが来るか、ボタンを押したらDOMがどう変わるか。この一点に絞って学習したモデルが、結果的に賢いエージェントの材料になる、という話である。

RLの重い部分は、実はモデルの外にある ⚙️

いま強いエージェントの多くは強化学習(RL)で仕上げられている。手順を試し、報酬を受け取り、方策を更新する。問題は、その「試す」相手が本物の環境だという点にある。検索RLなら本物の検索エンジン、ターミナルRLなら本物のコンテナを、学習ループのたびに叩く。遅いし、金がかかるし、外部APIのレート制限や非決定性で結果が再現しない。ローカルで大量のロールアウトを回したい実務からすると、ボトルネックはモデルではなく環境側にあることが多い。

Qwen-AgentWorldの発想は、この環境を丸ごとモデルに肩代わりさせることだ。飛行機の操縦訓練にフライトシミュレータを使うのと同じで、実機を壊さずに何度でも同じ状況を再現できる。彼らはこれを「language world model(言語世界モデル)」と呼ぶ。

世界モデルを、ピクセルではなく言語で作る

世界モデル自体は新しくない。ゲーム画面の次フレームを予測するDreamerやGenieのように、映像を生成して未来を思い描く研究が先行してきた。Qwen-AgentWorldが違うのは、予測の対象を画像ではなくテキストとコードにした点だ。エージェントの行動履歴と次の一手を入力に取り、環境が返すはずの観測、つまりターミナル出力・APIレスポンス・更新後の画面を言語として出力する。

GUIを扱うWeb・OS・Androidの3ドメインでも、ピクセルではなくアクセシビリティツリーのXMLやHTML、UI階層のマークアップといった「レンダリング可能なコード」で状態を表現する。画像生成の重さを避けつつ、要素の構造や属性を正確に追える。カバーするのはMCP、Search、Terminal、SWE、Web、OS、Androidの7領域で、これを1つのモデルに収めたのは初だとしている(モデルカード)。

学習は3段階だ。まず1000万件を超える実環境の操作ログでCPT(継続事前学習)を行い、環境の挙動そのものを注入する。次にSFTで、次状態を予測する思考を<think>...</think>ブロックの明示的な推論として引き出す。最後にRLで、ルールベース検証とLLM判定を組み合わせた報酬でシミュレーションの忠実度を磨く。単なる次トークン予測ではなく、「このコマンドはこう解釈され、こう状態が変わり、だからこの出力になる」という多段の因果推論を長い思考連鎖で回すのが肝になっている。

シミュレータで訓練したほうが強い、という結果 📊

評価用に自作したAgentWorldBenchは、実環境で実行して得た正解観測とモデルの予測を、書式・事実性・一貫性・現実性・品質の5軸で突き合わせる。7ドメインの総合スコアはこうなっている。

モデル AgentWorldBench 総合
Qwen-AgentWorld-397B-A17B 58.71
GPT-5.4 58.25
Qwen-AgentWorld-35B-A3B 56.39
Claude Sonnet 4.6 56.04

環境をどれだけ正しく「演じられるか」で、397B版が最上位の商用モデルを上回った。ただ、シミュレータの精度自体は目的ではない。効いてくるのはその先だ。検索エージェントを本物の検索エンジンでRLした場合とこの世界モデルでRLした場合を比べると、後者のほうがF1で50.3対45.6と上回ったと報告している。実環境では作りにくい「わざと壊れたレスポンスを返す」といった摂動を注入できるぶん、多様な状況を学べるからだという。

もう一つ、冒頭の「行動を訓練していないのに強くなる」がこれだ。ツール呼び出しのない単一ターンの世界モデルRLで暖機しただけのモデルが、複数ターンのツール利用エージェントタスクへ転移し、学習時に見ていない未知ドメインでもBFCL v4で+9.0といった上積みを見せた。環境を予測する能力と、環境の中で正しく動く能力は地続きなのだ、というのが彼らの主張になる。この転移がどこまで一般に成り立つかは追試待ちだが、方向性としては面白い。

手元で動かす 🚀

公開されているのは35B-A3B(総パラメータ35B、アクティブ3B)で、ライセンスはApache 2.0、コンテキストは262,144トークン。3Bしか動かないMoEなので、この規模の割に推論は軽い。ベンチ最上位の397B-A17B版はスコアの報告が中心だ。

vLLMなら公式の起動コマンドはこれだけだ。

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

SGLangでも同様に立ち上げられる。

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

使いどころは大きく2つに整理されている。1つは学習環境の置き換えで、RLのロールアウト相手を実環境からこのモデルに差し替える。もう1つはエージェント基盤モデルとしての利用で、行動予測と環境予測を同じモデルで兼ねる。前者は、外部APIに毎回叩きに行くコストや再現性に悩んでいるチームには実利がわかりやすい。テストのモックを人手で書く代わりに、環境の振る舞いを学習済みモデルに代行させる、と読み替えると腑に落ちる。

冷静に見ておきたい点もある。シミュレータはあくまで予測であり、本物とズレれば「幻の環境」で学んだ方策が実環境で崩れるリスクは残る。だからこそ5軸の忠実度評価を前面に出しているわけだが、自分のドメインでどれだけ再現できるかは、AgentWorldBenchの数字を鵜呑みにせず手元のログで測るべきだろう。それでも、エージェント開発の重心が「賢い方策を作る」から「安く速く再現可能な環境を用意する」へ移りつつある流れを、1つのモデルにまとめて見せた点で示唆に富む。技術報告はarXiv:2606.24597にある。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?