オープンウェイトGLM-5.2、コーディングでGPT-5.5を一部超える

Posted at 2026-06-18

「オープンウェイトがGPT-5.5を超えた」という見出しを今週いくつも見たが、Z.aiが公開した GLM-5.2 を実際に触る側の関心はそこではない。重みがMITライセンスで配られ、しかも宣伝文句ではなく公式技術ブログに載った1Mトークンの文脈が「実用になる作り」になっている、という二点のほうがずっと重い。ベンチの一部勝ちは派手だが、現場の判断材料としては設計とライセンスの中身を読むべきだ。

Artificial Analysisの集計では、GLM-5.2はIntelligence Index v4.1で51を記録し、オープンウェイトのトップに立った(MiniMax-M3とDeepSeek V4 Proが44)。

1M文脈を「安く」回すためのIndexShare

GLM-5.2のアーキ上の目玉は、前世代から200Kだった文脈窓を1Mまで広げたことそのものより、それを成立させる IndexShare という仕組みにある。スパースアテンションでは、各層が「どのトークンを見るか」を選ぶインデクサのドット積とtopk計算がコストになる。公式ブログの説明では、4層ごとに1つの軽量インデクサを先頭層に置き、そこで選んだtopkインデックスを後続4層で使い回す。結果として4層中3層分のインデクサ計算が消える。

GLM-5.2 is trained with IndexShare from mid-training with 128K sequence length, outperforming GLM-5.1 on long-context benchmarks with less computation.

公開数値では、1M文脈時のトークンあたりFLOPsが2.9倍軽くなるという(技術ブログ)。長文脈は「対応しています」と書くのは簡単だが、推論コストが線形以上に膨らんで誰も使えない、というのがこれまでの定番だった。中盤学習(mid-training)の段階から128K系列でこの構造を仕込んでいる点を見ると、後付けの引き伸ばしではなく長文脈を前提に設計し直したと読める。リポジトリの重みは合計1.51TBで、総パラメータは約750B(Artificial Analysisの計測で744B)、アクティブは40BのスパースMoEだ。

ベンチは「一部超え」、Opusにはまだ届かない

VentureBeatなどの「GPT-5.5を1/6のコストで超える」という表現は、ベンチを選べば事実だが選ばなければ誇張になる。公式ブログの数字を並べると、得意不得意がはっきり出る。

ベンチ	GLM-5.2	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	62.1	58.6	69.2
FrontierSWE	74.4	~73	~75
Terminal Bench 2.1	81.0	84	85.0
GPQA-Diamond	91.2	93.6	93.6
AIME 2026	99.2	98.3	—

SWE-bench ProではGPT-5.5を明確に上回る一方、Terminal BenchとGPQAでは両者に届かない。Claude Opus 4.8には主要なコーディング系で総じて差をつけられている。つまり「フロンティアに肉薄したオープンウェイト」であって「フロンティア超え」ではない。私の読みでは、エージェント的な複数ステップのコーディング(SWE系)に寄せてチューニングされ、単発の難問推論(GPQA等)は二の次、という性格づけだ。AIME 2026の99.2は見栄えするが、数学は飽和気味の指標なので過大評価しないほうがいい。

触り方とコスト

OpenRouter経由ならOpenAI互換で叩ける。スラッグは z-ai/glm-5.2、文脈は1Mが通る。

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "z-ai/glm-5.2",
    "messages": [{"role": "user", "content": "Refactor this module..."}]
  }'

Z.ai公式APIの単価は入力 $1.40 / 出力 $4.40(いずれも100万トークンあたり)、キャッシュヒットは $0.26。推論の強さは high と max の2段で切り替えられ、Claude CodeやZCode、OpenCodeから使う場合は1M文脈版に GLM-5.2[1m] というモデルIDが割り当てられている。レイテンシと精度を effort で振れるのは、CIで回す自動修正と対話的なレビューを同じモデルで使い分けたいときに効く設計だ。

実務での落としどころははっきりしている。MITで重みが手に入るので、コードや独自仕様を外部APIに出せない環境ではセルフホストの第一候補になる。一方、最高精度が要るエージェントなら現状はOpus 4.8が優勢で、GLM-5.2はコストとデータ主権を取りに行くカードだ。[1m] 版でリポジトリ全体を一度に読ませる使い方は、IndexShareのコスト構造があってはじめて現実的になる。長文脈のベンチ番付より、この「広い窓を割に合う値段で回せるか」のほうが、半年後に効いてくる差だと見ている。

参考:GLM-5.2モデルカード(Hugging Face) / Z.ai公式アナウンス(X) / 前世代GLM-5.1の設計ブログ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up