はじめに
大規模言語モデル(LLM)の性能向上は、これまでパラメータ数の増大に大きく依存してきました。しかし、パラメータを増やさずに「考える深さ」を増やすことで性能を向上させるアプローチがあります。再帰深度Transformer(Recurrent Depth Transformer, RDT) です。
RDTは、単一の再帰ブロックを複数回反復適用することで、パラメータ数を固定したまま計算深度を動的に変更できるアーキテクチャです。Huginn(Geiping et al., 2025)などの先行研究で、その有効性が示されています。
しかし、RDTには深刻な安定性の問題があります。反復深度を増やすと、ある臨界点で性能が突然崩壊する**「相転移」** が発生します。
本記事では、この相転移問題を解決する Gate Decay 機構を提案し、722Mパラメータモデルでの実験結果を報告します。
問題:深度方向の3つの失敗モード
RDTの深度安定化には、これまで3つのアプローチが試みられてきましたが、いずれも根本的な問題を抱えています。
失敗モード1:制御なし → 相転移
深度安定化を一切行わない場合、内部状態のノルムが指数的に発散し、ある深度を超えると性能が壊滅的に崩壊します。
n_loops=16: loss = 8.67(正常)
n_loops=24: loss = 12.37(崩壊)← +3.70の急激な悪化
失敗モード2:RMSNorm → 深度効果消失
状態ベクトルにRMSNormを適用すると、全ての深度で同一のlossになります。深度を増やしても性能が全く変わらず、再帰構造が意味をなさなくなります。
n_loops=1: loss = 8.35
n_loops=12: loss = 8.35
n_loops=24: loss = 8.35 ← 全て同じ
失敗モード3:ReZero → 固定点形成
固定スケーリング係数(α=0.3)を適用すると、初期には有効ですが、学習の進行に伴い最適深度が浅い方へ退行します。
学習初期: best_depth = 24
学習後期: best_depth = 6 ← 退行
つまり、従来手法では**「深度利用の維持」と「状態発散の抑制」がトレードオフ**の関係にあり、両立する手法が存在しませんでした。
提案手法:Gate Decay
基本アイデア
Gate Decayの発想はシンプルです:
ゲート値に深度依存の減衰を掛けることで、深い反復での更新量を自然に抑制する。
アーキテクチャ
BathysRDTは、Prelude(前処理)→ Recurrent Block(再帰ブロック)→ Coda(後処理)の3段構造を持ちます。
入力トークン列
→ 埋め込み層
→ Prelude層群(標準Transformer層)
→ 埋め込みベクトル e
初期状態 s₀(ランダム初期化)
再帰ブロック(n_loops回反復):
for d = 1, 2, ..., n_loops:
cand = Inject([s; e]) # 状態と入力を結合
cand = SelfAttention(cand) # 自己注意
cand = FFN(cand) # フィードフォワード
g = sigmoid(W_gate * [s; e]) # ゲート値算出
g_eff = g × exp(-d / τ) # Gate Decay(本提案)
s = (1 - g_eff) * s + g_eff * cand # 凸結合で状態更新
→ Coda層群
→ 出力ヘッド → 予測分布
Gate Decayの数式
g_eff = g × exp(-d / τ)
ここで:
-
d:現在の反復深度(1から開始) -
τ:減衰時定数(学習可能パラメータ) -
g:入力依存のゲート値(sigmoid出力)
τは以下のように正値が保証されます:
τ = softplus(θ) = ln(1 + exp(θ))
θはニューラルネットワークの他のパラメータと同時に誤差逆伝播法で最適化されます。
なぜ機能するのか
Gate Decayの本質は、更新の方向を変えずに、更新の大きさだけを深度に応じて制御することにあります。
- 浅い深度(d ≪ τ):exp(-d/τ) ≈ 1 → 通常のゲート動作
- 深い深度(d ≫ τ):exp(-d/τ) → 0 → 更新量が自然に抑制
深い反復では状態更新がほぼ恒等写像になるため、状態ノルムの発散が防止されます。一方、浅い〜中間の深度では通常通りの学習が行われるため、深度効果が維持されます。
実験結果
実験設定
| 項目 | 値 |
|---|---|
| 生徒モデル | 722Mパラメータ(H=2048) |
| 教師モデル | llm-jp-4-8b-base(8B, 4-bit量子化) |
| 学習データ | Wikipedia日本語(約139万記事) |
| GPU | NVIDIA RTX 3090(24GB)1台 |
4方式の比較結果
| 方式 | best_depth | depth_gain | n16 | n24 | 動態 |
|---|---|---|---|---|---|
| 制御なし | 12 | 0.55 | 8.67 | 12.37 | 相転移で崩壊 |
| RMSNorm | - | 0.00 | 8.35 | 8.35 | 深度効果消失 |
| ReZero(α=0.3) | 6 | 0.31 | 9.60 | 9.99 | 固定点形成 |
| Gate Decay | 16 | 0.36 | 8.68 | 8.97 | 深度延長成功 |
- best_depth:最良の性能を示した反復深度
- depth_gain:n_loops=1との性能差(大きいほど良い)
- n24:n_loops=24での性能値(低いほど良い)
Gate Decayの全深度プロファイル
n_loops: 1 3 6 12 16 24 32 48 64
loss: 9.03 8.87 8.76 8.70 8.68 8.97 9.08 9.13 9.14
相転移は完全に消失しています。 n16→n24の性能悪化は+0.29に留まり、制御なしの+3.70と比較して93%の削減を達成しました。n64まで破壊的崩壊は発生していません。
相転移の定量的抑制
| n16 → n24 の悪化幅 | |
|---|---|
| 制御なし | +3.70(壊滅的崩壊) |
| Gate Decay | +0.29(緩やかな劣化、93%削減) |
ゲートプローブ分析
深度ごとのゲート値と状態変化量を測定しました:
| 深度 | ゲート値 g | 状態変化 ds/s | 状態ノルム |
|---|---|---|---|
| d=1 | 0.257 | 1.0000 | 6.49e+04 |
| d=4 | 0.206 | 0.0645 | 7.52e+04 |
| d=8 | 0.148 | 0.0105 | 7.57e+04 |
| d=12 | 0.106 | 0.0028 | 7.58e+04 |
| d=16 | 0.076 | 0.0025 | 7.56e+04 |
| d=24 | 0.039 | 0.0020 | 7.58e+04 |
| d=32 | 0.020 | 0.0022 | 7.58e+04 |
ゲート値は深度とともに単調に減少し(0.257→0.020)、Gate Decayが設計通りに機能していることが確認できます。状態ノルムは7.5e+04付近で安定しており、発散は一切発生していません。
スケール検証(2.1B、進行中)
現在、2.1Bパラメータモデルでのスケール検証実験を実施中です。
Stage 1(n_loops=1)完了時点での速報:
- 相転移なし:n=1(11.56)からn=64(11.84)まで安定(差わずか0.28)
- Gate Decay正常動作:ゲート値の減衰パターンが722Mと同一
- 状態ノルム安定:全深度で発散なし
2.1Bモデルでも722Mと同じ減衰特性を示しており、Gate Decayのスケール非依存性が確認されつつあります。
先行研究との違い
| 手法 | 目的 | Gate Decayとの違い |
|---|---|---|
| Universal Transformer (Dehghani+ 2019) | エンコーダ・デコーダの深度再帰 | Seq2Seq限定、ACTで停止制御 |
| Huginn (Geiping+ 2025) | RDTの実用化 | 深度安定化機構なし |
| PonderNet (Banino+ 2021) | 確率的深度停止 | 「いつ止めるか」vs「どれだけ更新するか」 |
| Adaptive Computation Time | 動的計算量 | 効率化目的 vs 安定化目的 |
今後の方向性
深度メタ認知(Depth Metacognition)
Gate Decay機構は、異なる反復深度での出力分布の差異(Depth Drift)を測定することで、モデルの確信度を推定する基盤を提供します。深度を増やしても出力が収束しない場合、「内部知識では解決できない」と判断し、外部知識の検索をトリガーするような応用が考えられます。
深度スケーリング則
モデルサイズの増加に伴い、最適深度(best_depth)がどのように変化するかは、RDT研究の中核的な問いです。2.1Bでの実験結果により、この問いに対する最初の回答が得られる見込みです。
まとめ
Gate Decayは、再帰深度Transformerの相転移問題に対するシンプルかつ効果的な解決策です。
- 追加パラメータはスカラー1個(θ)のみ
- 計算オーバーヘッドはほぼゼロ
- 相転移を93%削減
- 最適深度を12→16に延長
- 深度64まで安定動作
- 2.1Bスケールでもスケール非依存で動作
本手法に関する特許出願は2026年6月20日に日本特許庁に受理されています。
著者
Nakamura Tadayuki
独立研究者、山形県
Email: tada2503@yahoo.co.jp