エージェントを訓練せず強くする、Qwen-AgentWorldという世界モデル

Posted at 2026-07-01

エージェントを強くしたいなら、ふつうはエージェントを訓練する。ところがAlibabaのQwenチームが6月下旬に公開したQwen-AgentWorldは、行動を出力する訓練をほとんどしていないのに、7つのベンチマークでエージェント性能を押し上げた。何を学ばせたのかというと、行動ではなく「環境の反応」だ。端末にコマンドを打ったら何が返るか、APIを叩いたらどんなJSONが来るか、ボタンを押したらDOMがどう変わるか。この一点に絞って学習したモデルが、結果的に賢いエージェントの材料になる、という話である。

RLの重い部分は、実はモデルの外にある ⚙️

いま強いエージェントの多くは強化学習(RL)で仕上げられている。手順を試し、報酬を受け取り、方策を更新する。問題は、その「試す」相手が本物の環境だという点にある。検索RLなら本物の検索エンジン、ターミナルRLなら本物のコンテナを、学習ループのたびに叩く。遅いし、金がかかるし、外部APIのレート制限や非決定性で結果が再現しない。ローカルで大量のロールアウトを回したい実務からすると、ボトルネックはモデルではなく環境側にあることが多い。

Qwen-AgentWorldの発想は、この環境を丸ごとモデルに肩代わりさせることだ。飛行機の操縦訓練にフライトシミュレータを使うのと同じで、実機を壊さずに何度でも同じ状況を再現できる。彼らはこれを「language world model(言語世界モデル)」と呼ぶ。

世界モデルを、ピクセルではなく言語で作る

世界モデル自体は新しくない。ゲーム画面の次フレームを予測するDreamerやGenieのように、映像を生成して未来を思い描く研究が先行してきた。Qwen-AgentWorldが違うのは、予測の対象を画像ではなくテキストとコードにした点だ。エージェントの行動履歴と次の一手を入力に取り、環境が返すはずの観測、つまりターミナル出力・APIレスポンス・更新後の画面を言語として出力する。

GUIを扱うWeb・OS・Androidの3ドメインでも、ピクセルではなくアクセシビリティツリーのXMLやHTML、UI階層のマークアップといった「レンダリング可能なコード」で状態を表現する。画像生成の重さを避けつつ、要素の構造や属性を正確に追える。カバーするのはMCP、Search、Terminal、SWE、Web、OS、Androidの7領域で、これを1つのモデルに収めたのは初だとしている(モデルカード)。

学習は3段階だ。まず1000万件を超える実環境の操作ログでCPT(継続事前学習)を行い、環境の挙動そのものを注入する。次にSFTで、次状態を予測する思考を<think>...</think>ブロックの明示的な推論として引き出す。最後にRLで、ルールベース検証とLLM判定を組み合わせた報酬でシミュレーションの忠実度を磨く。単なる次トークン予測ではなく、「このコマンドはこう解釈され、こう状態が変わり、だからこの出力になる」という多段の因果推論を長い思考連鎖で回すのが肝になっている。

シミュレータで訓練したほうが強い、という結果 📊

評価用に自作したAgentWorldBenchは、実環境で実行して得た正解観測とモデルの予測を、書式・事実性・一貫性・現実性・品質の5軸で突き合わせる。7ドメインの総合スコアはこうなっている。

モデル	AgentWorldBench 総合
Qwen-AgentWorld-397B-A17B	58.71
GPT-5.4	58.25
Qwen-AgentWorld-35B-A3B	56.39
Claude Sonnet 4.6	56.04

環境をどれだけ正しく「演じられるか」で、397B版が最上位の商用モデルを上回った。ただ、シミュレータの精度自体は目的ではない。効いてくるのはその先だ。検索エージェントを本物の検索エンジンでRLした場合とこの世界モデルでRLした場合を比べると、後者のほうがF1で50.3対45.6と上回ったと報告している。実環境では作りにくい「わざと壊れたレスポンスを返す」といった摂動を注入できるぶん、多様な状況を学べるからだという。

もう一つ、冒頭の「行動を訓練していないのに強くなる」がこれだ。ツール呼び出しのない単一ターンの世界モデルRLで暖機しただけのモデルが、複数ターンのツール利用エージェントタスクへ転移し、学習時に見ていない未知ドメインでもBFCL v4で+9.0といった上積みを見せた。環境を予測する能力と、環境の中で正しく動く能力は地続きなのだ、というのが彼らの主張になる。この転移がどこまで一般に成り立つかは追試待ちだが、方向性としては面白い。

手元で動かす 🚀

公開されているのは35B-A3B(総パラメータ35B、アクティブ3B)で、ライセンスはApache 2.0、コンテキストは262,144トークン。3Bしか動かないMoEなので、この規模の割に推論は軽い。ベンチ最上位の397B-A17B版はスコアの報告が中心だ。

vLLMなら公式の起動コマンドはこれだけだ。

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

SGLangでも同様に立ち上げられる。

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

使いどころは大きく2つに整理されている。1つは学習環境の置き換えで、RLのロールアウト相手を実環境からこのモデルに差し替える。もう1つはエージェント基盤モデルとしての利用で、行動予測と環境予測を同じモデルで兼ねる。前者は、外部APIに毎回叩きに行くコストや再現性に悩んでいるチームには実利がわかりやすい。テストのモックを人手で書く代わりに、環境の振る舞いを学習済みモデルに代行させる、と読み替えると腑に落ちる。

冷静に見ておきたい点もある。シミュレータはあくまで予測であり、本物とズレれば「幻の環境」で学んだ方策が実環境で崩れるリスクは残る。だからこそ5軸の忠実度評価を前面に出しているわけだが、自分のドメインでどれだけ再現できるかは、AgentWorldBenchの数字を鵜呑みにせず手元のログで測るべきだろう。それでも、エージェント開発の重心が「賢い方策を作る」から「安く速く再現可能な環境を用意する」へ移りつつある流れを、1つのモデルにまとめて見せた点で示唆に富む。技術報告はarXiv:2606.24597にある。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up