0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ByteDance Seed 2.1が示す、AIの評価軸が『完遂』へ動いた

0
Posted at

新しいコーディングモデルが出ると、まず探すのは SWE-Bench の数字だ。何%取ったか、前世代から何ポイント伸びたか。ところが ByteDance が6月23日に出した Seed 2.1 の公式ブログを読むと、その「いつもの数字」がほとんど主役になっていない。代わりに並ぶのは GDPVal、Workspace Bench、MobileWorld といった、聞き慣れないベンチの名前だ。これは見落とすと損をする変化だと思う。モデルを採用する側にとって、何を測ったベンチを信じるかは、最終的に何を出荷できるかに直結するからだ。

「うまく答える」から「最後までやり切る」へ

ByteDance は Seed 2.1 の設計思想を、回りくどい言い方を避けてこう書いている。

users need models that can carry tasks through end-to-end toward a defined goal and deliver usable outcomes

ユーザーが欲しいのは、定義されたゴールに向かってタスクを端から端まで運び、使える成果物を出すモデルだ、と。コーディングについても「コードベース全体のアーキテクチャ・依存関係・ビジネスロジックを理解できる」ことを掲げ、要件分析・機能実装・バグ修正・環境構築・結果検証という一連の流れ(full-cycle)を回せることを売りにしている。

ここがポイントだ。従来のベンチの多くは、切り出された一問にどれだけ正しく答えるかを測ってきた。SWE-Bench でさえ、与えられた issue に対するパッチ一発の正否が中心だ。それに対して Seed 2.1 が前面に出すのは、長い手順を自分で計画し、途中でつまずいたら自己修復(self-repair)しながら、ゴールまで運ぶ「完遂」の能力である。一問の精度ではなく、仕事の完了率。評価の物差しがそこへ動いている。

GDPValが測っているもの

並んだベンチのうち、外部の標準として中身がはっきりしているのが GDPVal だ。これは ByteDance ではなく OpenAI が2025年に公開したベンチで、論文解説が出ている。

何がユニークかというと、問題が「実在の職業の実務」から作られている点だ。米GDPに貢献する上位9産業・44職種から、平均14年の実務経験者が普段こなす仕事を切り出し、計1,320タスク(うち220を公開)を用意する。モデルには文書・スライド・図・スプレッドシートといった現実の納品物を作らせ、専門家がブラインドで人間の成果物と並べて「より良い/同等/劣る」を判定する。クイズの正答率ではなく、納品物としての出来を人が見る。OpenAI の報告では、フロンティアモデルは熟練者よりおよそ100倍速く・安くこれらをこなしたという。

Seed 2.1 がこうしたベンチを並べたのは、「うちのモデルは実務の成果物を出せる」と主張するための土俵選びだと読める。逆に言えば、SWE-Bench のスコアだけ見てモデルを選ぶ時代は、もう測りたいものの一部しか測れていない。

何を測ったか、で並べ替える

新旧の評価軸を雑に整理すると、こうなる。

評価軸 代表的なベンチ 測っているもの
一問の精度 MMLU、GSM8K 知識・推論の正答率
単発のコード修正 SWE-Bench Verified issue 1件へのパッチの正否
長手順の完遂・実務成果 GDPVal、Workspace Bench ゴールまでやり切れたか、成果物の質
GUI/エージェント操作 MobileWorld、OSWorld 画面を操作してタスクを終えられるか

Seed 2.1 の公開数値で具体的に確認できたのは、フロントエンド生成を競う Code Arena で、プレビュー版が1539点・8位につけたという一点だ。felloai のレビューによれば、この順位は Claude Opus 4.6 と並ぶ位置にあたるという。逆に言えば、肝心の GDPVal などの絶対スコアや、パラメータ数・コンテキスト長・価格は公式ブログでも開示されていない。ここは正直に「まだ分からない」と書いておく。

触れるのか、という現実的な話

使う側として気になる「今すぐ触れるか」については、ソース間で食い違いがあった。ByteDance 公式ブログは「Doubao と Volcano Engine のユーザーは今から Doubao Seed 2.1 を使える」と書く。一方、公開前日の6月22日付の felloai は、当時まだ Arena コミュニティ経由の早期プレビューで、広い提供は Feishu Spark や Coze から数週間かけて始まり、本格的な API 開放はその後、と報じていた。たった1日で「プレビュー」から「Doubao/Volcano Engine で利用可」へ表現が動いている。中国系プラットフォーム前提の段階的ロールアウトなので、英語圏や日本からすぐ叩ける API がある状態とは限らない、というのが実情だろう。重みの公開予定も明言されていない。

で、エンジニアはどう受け取るか

Seed 2.1 単体が GPT-5.5 や Opus を超えたかどうかは、まだ独立検証できる材料がそろっていない。煽る段階ではない。むしろ持ち帰るべきは評価のリテラシーのほうだ。エージェントを業務に入れるなら、「ベンチで何点」より「自分のタスクを最後まで運べるか」を自前で測る発想がいる。社内の典型チケットを10本選び、人手の成果物と並べて第三者にブラインドで優劣を付けさせる。GDPVal がやっているのは、要はそれを大規模かつ職業横断でやることだ。同じ手法は、どのモデルを採用するかの社内判断にそのまま流用できる。

新しいモデルのニュースは数字の更新として流れてくるが、Seed 2.1 が面白いのは数字そのものより、何を数字にするかをずらしてきた点にある。次にモデルを比べるとき、リーダーボードの一列だけでなく「このベンチは仕事の完遂を測っているか」を一度問うてみると、見え方がだいぶ変わるはずだ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?