ZAYA1-8B:760M activeで大型モデルに並ぶMoE++アーキテクチャ

Posted at 2026-05-31

わずか760M(7.6億)の「アクティブパラメータ」——1トークンを処理するのに実際に動く部分——だけで、米Zyphra(ザイフラ)の推論モデル「ZAYA1-8B」が、数学とコーディングのテストでClaude 4.5 Sonnetと肩を並べた。2026年5月6日にApache 2.0で公開されたオープンソースモデルだ。

Mixture of Experts(MoE、専門家混合=入力ごとに一部の「専門家」だけを動かす仕組み)の競争は、長く「総パラメータを増やす」か「動かす比率を下げる」かの二軸だった。ZAYA1-8Bが開いたのは、そのどちらでもない「1回に動かす量を、絶対値で小さく抑える」第三の軸だ。

なぜ「MoE++」と呼ばれるのか——760M activeで足りる仕組み

MoEが1回に動かす割合は各社バラバラだ。主要モデルを並べてみる。

モデル	1回に動かす割合	実際に動く量
Kimi K2	3.2%	320億(総1兆)
DeepSeek V3.2	5.4%	370億
Qwen3-235B	9.4%	220億
ZAYA1-8B	9.05%	7.6億(760M)

比率だけ見れば9.05%は平凡だ。効くのは比率ではなく、実際に動く量が760Mと桁違いに小さい点だ。Kimi K2が「総量を増やして賢くする」路線なら、ZAYA1-8Bは「計算を軽く保ったまま大型に並ぶ」逆の路線——Zyphraが「MoE++」と呼ぶ新しいMoEアーキテクチャだ。

中身は3つの工夫の組み合わせだが、主役は1つでいい。注意計算(入力のどの部分に注目するかを重み付けする処理)を圧縮する「CCA」がそれで、残り2つ(専門家の選び方と残差接続)は脇を固める改良と捉えると見通しがよくなる。

主役の仕掛け:KVキャッシュを8分の1にするCCA

CCA(Compressed Convolutional Attention)は、LLMが過去の文脈を覚えておく「KVキャッシュ」——会話が長くなるほど膨らみ、推論のメモリとコストを押し上げる領域——を小さくする工夫だ。

前提を一つ。KVキャッシュ節約の定番手法にGQAやMLAがあり、どちらも「鍵(k)と値(v)を間引いたり共有して、覚えるデータを減らす」発想だ。CCAはこれを一歩進める。まず、注意計算に使うq・k・v(問い合わせ・鍵・値の3種のベクトル)をまとめて低い次元に畳む。Zyphraの報告では、q(問い合わせ)はおよそ半分、k・v(鍵と値)は8分の1まで圧縮する。次に、近くのトークン同士を1次元の畳み込み(隣り合う情報を少しずつ混ぜる操作)でならしてから注意計算を行う。

長い会話の記録を「要点だけのメモ」に縮め、メモ同士を軽く混ぜてから読み返す——そんなイメージだ。GQAやMLAが主にkとvだけを減らすのに対し、CCAは畳み込みを足してq側も含めて圧縮する。Zyphraはこれで「KVキャッシュを8倍圧縮しても精度は落ちない」と報告している。

ひとつ注意。原論文の「文脈の読み込みが約1.7倍速、学習時の計算が約1.3倍速」はNVIDIA製H100での計測値だ。訓練に使ったAMD製GPU上の数字は公表されておらず、速度向上の幅はそのまま当てはめないほうがいい。

残り2つの工夫は、ひとことで

残り2つは「なぜ効くか」だけ押さえれば十分だ。1つは、どの専門家を動かすか選ぶ「ルータ」を1層から多段の小さなネットワークに作り替えたこと。760Mの少ない予算では一部の専門家ばかり働くと性能を出しきれないため、負荷を均して全員を均等に働かせる狙いだ。もう1つは、層をまたいで信号を送る「残差接続」(skip connection)の重みを学習で決めるようにしたこと。前の信号をどれだけ残すかを層ごとに最適化でき、小さなモデルでも深い層まで学習が安定して通る。

ベンチマークは「base」と「推論版」を分けて読む

混乱しやすいので先に整理する。ZAYA1には土台の「ZAYA1-base」と推論用の「ZAYA1-8B(推論版)」があり、派手な数字を出すのは後者だ。

テスト	種類	推論版のスコア	ひとこと
AIME'25	数学	91.9%	—
HMMT'25 Feb	数学	89.6%	Claude 4.5 Sonnet(88.3)を上回る
LiveCodeBench-v6	コーディング	64.8	Mistral-Small-4-119B(57.9)を上回る

HMMT'25の値は、独自のテスト時推論「Markovian RSA」(答えを何度も練り直して精度を上げる手法)を1問あたり最大550万トークンという贅沢な予算で回したときの値だ(MarkTechPostの報告)。そして大事な前提——いずれもZyphra自身の発表値で、第三者の独立検証はまだ薄い。「公開された範囲ではここまで」と一歩引いて読むのが安全だ。

誰が使うと得をして、どこで効かないか

自分の現場ではどう効くのか。ZAYA1-8Bが活きるのは「大きなGPUを新調せず、賢い推論を手元で回したい」場面だ。たとえば、社内文書を検索するツールや開発支援ボットを、外部APIに投げず自社サーバーや手元で動かしたいチーム。BF16(16ビット精度)で約16GB、4bit量子化(数値の精度を落として軽くする手法)なら約6GBに載り、ひと世代前のGPU1枚でも動く。数学・コーディング・科学計算のような「じっくり考える」タスクが中心なら、大型APIの従量課金を抑えつつ、データを社外に出さず処理できる。

逆に万能ではない。ツール呼び出しのBFCL-V4は40.5、指示追従のIFBenchは52.56と、雑談や汎用アシスタント用途では大型LLMにはっきり劣る。「小さくて何でもできる」ではなく「小さくて、得意分野では大型に並ぶ」モデルだ。

手元で動かす:transformersとvLLM

ZAYA1はApache 2.0でHugging Faceに公開され、BF16で約16GB、4bit量子化なら約6GBで動く。CCAなど独自の層を含むため、現時点ではZyphra版のtransformersを入れる必要がある。

# ① Zyphra版transformersを導入(CCA等の独自層に対応。本家へ統合されるまでの暫定)
pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya" accelerate

# ② モデルを読み込み、一問だけ解かせる最小例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 土台モデル。本文のベンチ値を出す推論版は "Zyphra/ZAYA1-8B"(同じOrg配下)に差し替える
MODEL = "Zyphra/ZAYA1-base"

tokenizer = AutoTokenizer.from_pretrained(MODEL)
model = AutoModelForCausalLM.from_pretrained(
    MODEL,
    torch_dtype=torch.bfloat16,  # BF16で約16GB(4bit量子化なら約6GB)
    device_map="auto",           # 空いているGPUへ自動配置
)

prompt = "Prove that the sum of two odd integers is even."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256, do_sample=False)
print(tokenizer.decode(out[0], skip_special_tokens=True))

# ③ OpenAI互換APIのサーバーを起動する
vllm serve "Zyphra/ZAYA1-base" --dtype bfloat16

上のコードは土台(base)の最小ロード例だ。華々しいベンチ値を出すのは推論版なので、再現時はモデルIDを差し替える。これはモデルを読み込む骨組みで、CCAやMoE++の中身を動かして見せるものではない。正確なAPI名や最新のサンプルはHugging Faceの公式モデルカード(Zyphra/ZAYA1-base)を参照してほしい。

「AMDだけで訓練できた」——NVIDIA一強を崩す訓練インフラの転換点

主軸からはやや外れるが、もう一つの意義がある。128ノード×8基=計1,024基のAMD Instinct MI300X GPUとAMDのネットワーク機器、IBM Cloud上で、事前訓練から仕上げまでをすべて完結させた点だ。NVIDIAを1枚も使わずに大規模MoEを訓練しきった、ZyphraとAMDがいう史上初の事例である(三者の協業は2025年10月公表)。

ただ「NVIDIAの牙城が崩れた」と早合点はできない。HyperFRAME Researchは構成次第でハード費用が2〜4割安くなり得ると見積もるが厳密なベンチではなく、semianalysisは今も「CUDAの優位は生きている」と書く。それでも「NVIDIA抜きで最先端級のMoEが作れた」意味は大きい。公開から1か月足らずで外部企業の採用例は薄いが、弱点というより、エコシステム組成の途上と見るのが正確だ。

「どのモデルか」から「どう作るか」へ

ZAYA1-8Bが見せたのは二つだ。MoEで動かすパラメータは絶対値で760Mまで絞れること、最先端級のMoEはAMDだけでも作れること。賢さだけでなく「どの計算資源で、どう設計して作るか」へ競争の重心が移りつつある。

選ぶ目安はシンプルだ。手元のGPUに載る小ささで数学・コード・科学計算を回したいなら、絶対値を絞ったZAYA1-8Bが候補になる。逆に雑談まで含む幅広い用途を1つで賄うなら、まだ大型モデルに分がある。Apache 2.0なのだから、納得がいったらHugging Faceから取ってきて「本当に760Mで足りるのか」を自分のタスクで確かめるのが早い。あなたのワークロードが欲しいのは、総量で殴るモデルか、それとも絶対値を絞ったモデルか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up