エージェントを強くしたいなら、ふつうはエージェントを訓練する。ところがAlibabaのQwenチームが6月下旬に公開したQwen-AgentWorldは、行動を出力する訓練をほとんどしていないのに、7つのベンチマークでエージェント性能を押し上げた。何を学ばせたのかというと、行動ではなく「環境の反応」だ。端末にコマンドを打ったら何が返るか、APIを叩いたらどんなJSONが来るか、ボタンを押したらDOMがどう変わるか。この一点に絞って学習したモデルが、結果的に賢いエージェントの材料になる、という話である。
RLの重い部分は、実はモデルの外にある ⚙️
いま強いエージェントの多くは強化学習(RL)で仕上げられている。手順を試し、報酬を受け取り、方策を更新する。問題は、その「試す」相手が本物の環境だという点にある。検索RLなら本物の検索エンジン、ターミナルRLなら本物のコンテナを、学習ループのたびに叩く。遅いし、金がかかるし、外部APIのレート制限や非決定性で結果が再現しない。ローカルで大量のロールアウトを回したい実務からすると、ボトルネックはモデルではなく環境側にあることが多い。
Qwen-AgentWorldの発想は、この環境を丸ごとモデルに肩代わりさせることだ。飛行機の操縦訓練にフライトシミュレータを使うのと同じで、実機を壊さずに何度でも同じ状況を再現できる。彼らはこれを「language world model(言語世界モデル)」と呼ぶ。
世界モデルを、ピクセルではなく言語で作る
世界モデル自体は新しくない。ゲーム画面の次フレームを予測するDreamerやGenieのように、映像を生成して未来を思い描く研究が先行してきた。Qwen-AgentWorldが違うのは、予測の対象を画像ではなくテキストとコードにした点だ。エージェントの行動履歴と次の一手を入力に取り、環境が返すはずの観測、つまりターミナル出力・APIレスポンス・更新後の画面を言語として出力する。
GUIを扱うWeb・OS・Androidの3ドメインでも、ピクセルではなくアクセシビリティツリーのXMLやHTML、UI階層のマークアップといった「レンダリング可能なコード」で状態を表現する。画像生成の重さを避けつつ、要素の構造や属性を正確に追える。カバーするのはMCP、Search、Terminal、SWE、Web、OS、Androidの7領域で、これを1つのモデルに収めたのは初だとしている(モデルカード)。
学習は3段階だ。まず1000万件を超える実環境の操作ログでCPT(継続事前学習)を行い、環境の挙動そのものを注入する。次にSFTで、次状態を予測する思考を<think>...</think>ブロックの明示的な推論として引き出す。最後にRLで、ルールベース検証とLLM判定を組み合わせた報酬でシミュレーションの忠実度を磨く。単なる次トークン予測ではなく、「このコマンドはこう解釈され、こう状態が変わり、だからこの出力になる」という多段の因果推論を長い思考連鎖で回すのが肝になっている。
シミュレータで訓練したほうが強い、という結果 📊
評価用に自作したAgentWorldBenchは、実環境で実行して得た正解観測とモデルの予測を、書式・事実性・一貫性・現実性・品質の5軸で突き合わせる。7ドメインの総合スコアはこうなっている。
| モデル | AgentWorldBench 総合 |
|---|---|
| Qwen-AgentWorld-397B-A17B | 58.71 |
| GPT-5.4 | 58.25 |
| Qwen-AgentWorld-35B-A3B | 56.39 |
| Claude Sonnet 4.6 | 56.04 |
環境をどれだけ正しく「演じられるか」で、397B版が最上位の商用モデルを上回った。ただ、シミュレータの精度自体は目的ではない。効いてくるのはその先だ。検索エージェントを本物の検索エンジンでRLした場合とこの世界モデルでRLした場合を比べると、後者のほうがF1で50.3対45.6と上回ったと報告している。実環境では作りにくい「わざと壊れたレスポンスを返す」といった摂動を注入できるぶん、多様な状況を学べるからだという。
もう一つ、冒頭の「行動を訓練していないのに強くなる」がこれだ。ツール呼び出しのない単一ターンの世界モデルRLで暖機しただけのモデルが、複数ターンのツール利用エージェントタスクへ転移し、学習時に見ていない未知ドメインでもBFCL v4で+9.0といった上積みを見せた。環境を予測する能力と、環境の中で正しく動く能力は地続きなのだ、というのが彼らの主張になる。この転移がどこまで一般に成り立つかは追試待ちだが、方向性としては面白い。
手元で動かす 🚀
公開されているのは35B-A3B(総パラメータ35B、アクティブ3B)で、ライセンスはApache 2.0、コンテキストは262,144トークン。3Bしか動かないMoEなので、この規模の割に推論は軽い。ベンチ最上位の397B-A17B版はスコアの報告が中心だ。
vLLMなら公式の起動コマンドはこれだけだ。
vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--trust-remote-code
SGLangでも同様に立ち上げられる。
python -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--context-length 262144 \
--reasoning-parser qwen3
使いどころは大きく2つに整理されている。1つは学習環境の置き換えで、RLのロールアウト相手を実環境からこのモデルに差し替える。もう1つはエージェント基盤モデルとしての利用で、行動予測と環境予測を同じモデルで兼ねる。前者は、外部APIに毎回叩きに行くコストや再現性に悩んでいるチームには実利がわかりやすい。テストのモックを人手で書く代わりに、環境の振る舞いを学習済みモデルに代行させる、と読み替えると腑に落ちる。
冷静に見ておきたい点もある。シミュレータはあくまで予測であり、本物とズレれば「幻の環境」で学んだ方策が実環境で崩れるリスクは残る。だからこそ5軸の忠実度評価を前面に出しているわけだが、自分のドメインでどれだけ再現できるかは、AgentWorldBenchの数字を鵜呑みにせず手元のログで測るべきだろう。それでも、エージェント開発の重心が「賢い方策を作る」から「安く速く再現可能な環境を用意する」へ移りつつある流れを、1つのモデルにまとめて見せた点で示唆に富む。技術報告はarXiv:2606.24597にある。