Kimi K2 Thinkingが何をしてるのかまとめてみた

Posted at 2025-12-09

Kimi K2は何をしているのか

Muon の学習不安定性と QK-Clip、MuonClip、Self-Critique RL のポイント

背景

大規模言語モデルの性能は、どれだけ効率よくトークンを使って学習できるかに左右される。近年は高品質なデータの枯渇が問題になり、**token efficiency（同じデータ量でどれだけ賢くなるか）**が重要になった。

この文脈で Muon optimizer が注目されている。Muonは、勾配を Newton–Schulz 近似で正規化し、勾配スケールを均一化しつつ少ないデータで高精度に到達する。Kimi K2 もこのMuonを採用している。

しかし、Muonには致命的な問題がある。
Attention の logit が爆発しやすいのだ。Muonで大規模モデルを学習すると、Query-Key 内積が際限なく大きくなり、softmax前の値（logit）が暴走する。

学習ログから、Muon使用時に attention logits が「1000」以上へ急上昇したことが確認されている。

従来対策では限界がある。

Logit soft-cap：logitを直接クリップするが、クリップ前に値が膨れ上がる
QK-Norm：Multi-head Latent Attention（MLA）では使用不可

この問題を解決するため、Kimi K2 は QK-Clip を導入した。
さらに、Muon・Weight Decay・RMS Matching・QK-Clip を統合した MuonClip optimizer を作り、安定的な大規模学習を実現した。

加えて、モデル自身の出力を自身で評価する Self-Critique RL を導入し、推論品質を強化した。

提案手法

全体像

Kimi K2 の学習基盤は、次の3点で成り立つ：

Muon optimizer
Attention logit explosion を抑える QK-Clip
すべてを統合した MuonClip optimizer
Self-Critique RL による自己評価型強化学習

この記事では、特に Muon → 不安定化 → QK-Clip → MuonClip の流れを中心に解説する。

1. Muon とは何か

Muonは、重み更新に Newton–Schulz 近似を使い、勾配方向を正規化する。
更新式には「勾配の寄与を均一化して rank を高める」特徴がある。

図として適切なのは Algorithm 1: MuonClip Optimizer（p.4）で、その前半がMuonの更新ステップに対応する。

図1：MuonClip（Muon + QK-Clip）のアルゴリズム

引用：Figure 2 付近の Algorithm 1（p.4）

図が示すポイント：

行 1〜7 が Muon の更新ループ
Newton–Schulz による正規化（L25）
Adam RMS に合わせたスケール調整（0.2 × sqrt(max(n,m))）
更新後に weight decay を適用

なぜ重要か：
Muonの特徴である「高ランクな更新」が、後述する logit explosion を引き起こす原因となるため。

読者が注目すべき点：
Muon は token-efficient だが unstable、という構造的問題を理解できる。

2. Muon の問題：Attention Logit Explosion

Muonは効率的であるにも関わらず、Attention の Query-Key 内積が異常に大きくなる現象が発生する。

論文の説明（p.3–4）：

AdamWでは起きにくいが、Muonでは顕著
QK 内積が急上昇し、softmax前の値（logit）が1000を超える
これが loss spike や divergence を誘発する

図2：Muon使用時の Attention Logit の暴走

引用：Figure 2 Left（p.4）

図の説明：

左図：Muonで学習すると max logits が1000超
学習ステップが増えるほど発散
典型的な loss spike につながる

ポイント：
問題は損失ではなく、重みスペクトルの成長にある。

Muonは全特異値を拡大する「full-rank 更新」を生成するため、
Wq / Wk の spectral norm（固有値最大値）が巨大化しやすい。

この “構造的に発散しやすい性質” が、通常の optimizer にないMuon固有の問題。

3. QK-Clip：Attention Head ごとの爆発だけを抑える

Kimi K2 は、logit の直接クリップではなく、重み（Wq, Wk）をスケールするという設計を採用した。

仕組みの要点（p.3–4）

各 attention head h ごとに、
そのバッチでの最大 logit Sh_max を計算
Sh_max > τ（閾値）なら
Wq, Wk を γ = τ / Sh_max だけ縮小
他の head には干渉しない
forward/backward には影響しない（次ステップから効く）

図3：QK-Clip あり／なしの logit の挙動

引用：Figure 2 Right（p.4）

図が示すこと：

QK-Clip を入れると logit は τ=100 に一気に収束
30%のステップ付近から安定
発散が完全に抑えられている

なぜ重要か：

Muon そのものを改善したのではなく、
Muon の欠点だけを局所的に抑制できる点が独創的
特に「爆発している head だけ」をスケールするため、
precision を落とさず安定性だけを得られる

読者が注目すべき点：
「logit をクリップする」のではなく「重みのスペクトルを抑える」アプローチであること。

4. MuonClip：Muon + Weight Decay + RMS Matching + QK-Clip の統合

Kimi K2 では、Muon と QK-Clip を統合し、
MuonClip optimizer として正式に採用している。

Algorithm 1 の後半（p.4）がそれに対応。

MuonClip の特徴

まず Muon の更新を行う（Newton–Schulz）
その後に各 head の logit を確認し、必要なら QK-Clip
MLA（Multi-head Latent Attention）向けに特別な処理
- rotary成分は共有のため、k_R はスケールしない

効果

Muon の高速学習能力を完全に保持
logit explosion を完全に抑制
小規模実験でも性能劣化なし

特に重要なのは Self-deactivation：

QK-Clip は学習初期だけ 12.7% の head が発火し、
7万ステップ以降は自然に消滅する。

これは、
「クリップは一生効き続けるのではなく、初期安定化のためだけに必要」
という示唆になる。

5. Self-Critique RL：自分の出力を自分で採点する

論文後半（RLセクション）では、Kimi K2 の推論強化のために Self-Critique RL を導入した。

仕組みの概要：

モデルがまず「回答」を生成
その回答について「自己評価（critique）」を生成
Critique のスコアを reward signal として学習
Critique は人間に似た採点基準を持つよう最適化されている

重要な点：

外部ラベルなしで RL が回る
hallucination 抑制
reasoning の質向上

まとめ

Kimi K2 で最も重要な要素は次の4つに整理できる。

Muon optimizer
- token-efficient
- しかし full-rank 更新により logit explosion が発生
QK-Clip
- attention head 単位で Wq / Wk を縮小
- 発散する head のみを抑制
- forward/backward への影響なし
MuonClip optimizer
- Muon + weight decay + RMS matching + QK-Clip
- 大規模学習の安定化を実現
- 性能劣化なし、小規模実験でも変動なし
Self-Critique RL
- モデルが自身の出力を自己採点
- hallucination を抑制し reasoning 性能を向上

特に QK-Clip の“局所的な重みスケーリング” は、
大規模LLMの安定化問題に対して非常に実用的かつ新しいアプローチであり、
MuonClip 全体の肝と言える。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up