新しいコーディングモデルが出ると、まず探すのは SWE-Bench の数字だ。何%取ったか、前世代から何ポイント伸びたか。ところが ByteDance が6月23日に出した Seed 2.1 の公式ブログを読むと、その「いつもの数字」がほとんど主役になっていない。代わりに並ぶのは GDPVal、Workspace Bench、MobileWorld といった、聞き慣れないベンチの名前だ。これは見落とすと損をする変化だと思う。モデルを採用する側にとって、何を測ったベンチを信じるかは、最終的に何を出荷できるかに直結するからだ。
「うまく答える」から「最後までやり切る」へ
ByteDance は Seed 2.1 の設計思想を、回りくどい言い方を避けてこう書いている。
users need models that can carry tasks through end-to-end toward a defined goal and deliver usable outcomes
ユーザーが欲しいのは、定義されたゴールに向かってタスクを端から端まで運び、使える成果物を出すモデルだ、と。コーディングについても「コードベース全体のアーキテクチャ・依存関係・ビジネスロジックを理解できる」ことを掲げ、要件分析・機能実装・バグ修正・環境構築・結果検証という一連の流れ(full-cycle)を回せることを売りにしている。
ここがポイントだ。従来のベンチの多くは、切り出された一問にどれだけ正しく答えるかを測ってきた。SWE-Bench でさえ、与えられた issue に対するパッチ一発の正否が中心だ。それに対して Seed 2.1 が前面に出すのは、長い手順を自分で計画し、途中でつまずいたら自己修復(self-repair)しながら、ゴールまで運ぶ「完遂」の能力である。一問の精度ではなく、仕事の完了率。評価の物差しがそこへ動いている。
GDPValが測っているもの
並んだベンチのうち、外部の標準として中身がはっきりしているのが GDPVal だ。これは ByteDance ではなく OpenAI が2025年に公開したベンチで、論文と解説が出ている。
何がユニークかというと、問題が「実在の職業の実務」から作られている点だ。米GDPに貢献する上位9産業・44職種から、平均14年の実務経験者が普段こなす仕事を切り出し、計1,320タスク(うち220を公開)を用意する。モデルには文書・スライド・図・スプレッドシートといった現実の納品物を作らせ、専門家がブラインドで人間の成果物と並べて「より良い/同等/劣る」を判定する。クイズの正答率ではなく、納品物としての出来を人が見る。OpenAI の報告では、フロンティアモデルは熟練者よりおよそ100倍速く・安くこれらをこなしたという。
Seed 2.1 がこうしたベンチを並べたのは、「うちのモデルは実務の成果物を出せる」と主張するための土俵選びだと読める。逆に言えば、SWE-Bench のスコアだけ見てモデルを選ぶ時代は、もう測りたいものの一部しか測れていない。
何を測ったか、で並べ替える
新旧の評価軸を雑に整理すると、こうなる。
| 評価軸 | 代表的なベンチ | 測っているもの |
|---|---|---|
| 一問の精度 | MMLU、GSM8K | 知識・推論の正答率 |
| 単発のコード修正 | SWE-Bench Verified | issue 1件へのパッチの正否 |
| 長手順の完遂・実務成果 | GDPVal、Workspace Bench | ゴールまでやり切れたか、成果物の質 |
| GUI/エージェント操作 | MobileWorld、OSWorld | 画面を操作してタスクを終えられるか |
Seed 2.1 の公開数値で具体的に確認できたのは、フロントエンド生成を競う Code Arena で、プレビュー版が1539点・8位につけたという一点だ。felloai のレビューによれば、この順位は Claude Opus 4.6 と並ぶ位置にあたるという。逆に言えば、肝心の GDPVal などの絶対スコアや、パラメータ数・コンテキスト長・価格は公式ブログでも開示されていない。ここは正直に「まだ分からない」と書いておく。
触れるのか、という現実的な話
使う側として気になる「今すぐ触れるか」については、ソース間で食い違いがあった。ByteDance 公式ブログは「Doubao と Volcano Engine のユーザーは今から Doubao Seed 2.1 を使える」と書く。一方、公開前日の6月22日付の felloai は、当時まだ Arena コミュニティ経由の早期プレビューで、広い提供は Feishu Spark や Coze から数週間かけて始まり、本格的な API 開放はその後、と報じていた。たった1日で「プレビュー」から「Doubao/Volcano Engine で利用可」へ表現が動いている。中国系プラットフォーム前提の段階的ロールアウトなので、英語圏や日本からすぐ叩ける API がある状態とは限らない、というのが実情だろう。重みの公開予定も明言されていない。
で、エンジニアはどう受け取るか
Seed 2.1 単体が GPT-5.5 や Opus を超えたかどうかは、まだ独立検証できる材料がそろっていない。煽る段階ではない。むしろ持ち帰るべきは評価のリテラシーのほうだ。エージェントを業務に入れるなら、「ベンチで何点」より「自分のタスクを最後まで運べるか」を自前で測る発想がいる。社内の典型チケットを10本選び、人手の成果物と並べて第三者にブラインドで優劣を付けさせる。GDPVal がやっているのは、要はそれを大規模かつ職業横断でやることだ。同じ手法は、どのモデルを採用するかの社内判断にそのまま流用できる。
新しいモデルのニュースは数字の更新として流れてくるが、Seed 2.1 が面白いのは数字そのものより、何を数字にするかをずらしてきた点にある。次にモデルを比べるとき、リーダーボードの一列だけでなく「このベンチは仕事の完遂を測っているか」を一度問うてみると、見え方がだいぶ変わるはずだ。