大規模LLMに依存しないAI推論 ― 小型モデル×再帰深度で実現するコスト10分の1の知能

Last updated at 2026-06-23Posted at 2026-06-23

はじめに

大規模言語モデル（LLM）の性能向上は、これまでパラメータ数の増大に大きく依存してきました。しかし、パラメータを増やさずに「考える深さ」を増やすことで性能を向上させるアプローチがあります。再帰深度Transformer（Recurrent Depth Transformer, RDT） です。

RDTは、単一の再帰ブロックを複数回反復適用することで、パラメータ数を固定したまま計算深度を動的に変更できるアーキテクチャです。Huginn（Geiping et al., 2025）などの先行研究で、その有効性が示されています。

しかし、RDTには深刻な安定性の問題があります。反復深度を増やすと、ある臨界点で性能が突然崩壊する**「相転移」** が発生します。

本記事では、この相転移問題を解決する Gate Decay 機構を提案し、722Mパラメータモデルでの実験結果を報告します。

問題：深度方向の3つの失敗モード

RDTの深度安定化には、これまで3つのアプローチが試みられてきましたが、いずれも根本的な問題を抱えています。

失敗モード1：制御なし → 相転移

深度安定化を一切行わない場合、内部状態のノルムが指数的に発散し、ある深度を超えると性能が壊滅的に崩壊します。

n_loops=16: loss = 8.67（正常）
n_loops=24: loss = 12.37（崩壊）← +3.70の急激な悪化

失敗モード2：RMSNorm → 深度効果消失

状態ベクトルにRMSNormを適用すると、全ての深度で同一のlossになります。深度を増やしても性能が全く変わらず、再帰構造が意味をなさなくなります。

n_loops=1:  loss = 8.35
n_loops=12: loss = 8.35
n_loops=24: loss = 8.35  ← 全て同じ

失敗モード3：ReZero → 固定点形成

固定スケーリング係数（α=0.3）を適用すると、初期には有効ですが、学習の進行に伴い最適深度が浅い方へ退行します。

学習初期:   best_depth = 24
学習後期:   best_depth = 6  ← 退行

つまり、従来手法では**「深度利用の維持」と「状態発散の抑制」がトレードオフ**の関係にあり、両立する手法が存在しませんでした。

提案手法：Gate Decay

基本アイデア

Gate Decayの発想はシンプルです：

ゲート値に深度依存の減衰を掛けることで、深い反復での更新量を自然に抑制する。

アーキテクチャ

BathysRDTは、Prelude（前処理）→ Recurrent Block（再帰ブロック）→ Coda（後処理）の3段構造を持ちます。

入力トークン列
  → 埋め込み層
  → Prelude層群（標準Transformer層）
  → 埋め込みベクトル e

初期状態 s₀（ランダム初期化）

再帰ブロック（n_loops回反復）:
  for d = 1, 2, ..., n_loops:
    cand = Inject([s; e])          # 状態と入力を結合
    cand = SelfAttention(cand)     # 自己注意
    cand = FFN(cand)               # フィードフォワード
    g = sigmoid(W_gate * [s; e])   # ゲート値算出
    g_eff = g × exp(-d / τ)        # Gate Decay（本提案）
    s = (1 - g_eff) * s + g_eff * cand  # 凸結合で状態更新

  → Coda層群
  → 出力ヘッド → 予測分布

Gate Decayの数式

g_eff = g × exp(-d / τ)

ここで：

d：現在の反復深度（1から開始）
τ：減衰時定数（学習可能パラメータ）
g：入力依存のゲート値（sigmoid出力）

τは以下のように正値が保証されます：

τ = softplus(θ) = ln(1 + exp(θ))

θはニューラルネットワークの他のパラメータと同時に誤差逆伝播法で最適化されます。

なぜ機能するのか

Gate Decayの本質は、更新の方向を変えずに、更新の大きさだけを深度に応じて制御することにあります。

浅い深度（d ≪ τ）：exp(-d/τ) ≈ 1 → 通常のゲート動作
深い深度（d ≫ τ）：exp(-d/τ) → 0 → 更新量が自然に抑制

深い反復では状態更新がほぼ恒等写像になるため、状態ノルムの発散が防止されます。一方、浅い〜中間の深度では通常通りの学習が行われるため、深度効果が維持されます。

実験結果

実験設定

項目	値
生徒モデル	722Mパラメータ（H=2048）
教師モデル	llm-jp-4-8b-base（8B, 4-bit量子化）
学習データ	Wikipedia日本語（約139万記事）
GPU	NVIDIA RTX 3090（24GB）1台

4方式の比較結果

方式	best_depth	depth_gain	n16	n24	動態
制御なし	12	0.55	8.67	12.37	相転移で崩壊
RMSNorm	-	0.00	8.35	8.35	深度効果消失
ReZero(α=0.3)	6	0.31	9.60	9.99	固定点形成
Gate Decay	16	0.36	8.68	8.97	深度延長成功

best_depth：最良の性能を示した反復深度
depth_gain：n_loops=1との性能差（大きいほど良い）
n24：n_loops=24での性能値（低いほど良い）

Gate Decayの全深度プロファイル

n_loops:  1     3     6    12    16    24    32    48    64
loss:   9.03  8.87  8.76  8.70  8.68  8.97  9.08  9.13  9.14

相転移は完全に消失しています。 n16→n24の性能悪化は+0.29に留まり、制御なしの+3.70と比較して93%の削減を達成しました。n64まで破壊的崩壊は発生していません。

相転移の定量的抑制

	n16 → n24 の悪化幅
制御なし	+3.70（壊滅的崩壊）
Gate Decay	+0.29（緩やかな劣化、93%削減）

ゲートプローブ分析

深度ごとのゲート値と状態変化量を測定しました：

深度	ゲート値 g	状態変化 ds/s	状態ノルム
d=1	0.257	1.0000	6.49e+04
d=4	0.206	0.0645	7.52e+04
d=8	0.148	0.0105	7.57e+04
d=12	0.106	0.0028	7.58e+04
d=16	0.076	0.0025	7.56e+04
d=24	0.039	0.0020	7.58e+04
d=32	0.020	0.0022	7.58e+04

ゲート値は深度とともに単調に減少し（0.257→0.020）、Gate Decayが設計通りに機能していることが確認できます。状態ノルムは7.5e+04付近で安定しており、発散は一切発生していません。

スケール検証（2.1B、進行中）

現在、2.1Bパラメータモデルでのスケール検証実験を実施中です。

Stage 1（n_loops=1）完了時点での速報：

相転移なし：n=1（11.56）からn=64（11.84）まで安定（差わずか0.28）
Gate Decay正常動作：ゲート値の減衰パターンが722Mと同一
状態ノルム安定：全深度で発散なし

2.1Bモデルでも722Mと同じ減衰特性を示しており、Gate Decayのスケール非依存性が確認されつつあります。

先行研究との違い

手法	目的	Gate Decayとの違い
Universal Transformer (Dehghani+ 2019)	エンコーダ・デコーダの深度再帰	Seq2Seq限定、ACTで停止制御
Huginn (Geiping+ 2025)	RDTの実用化	深度安定化機構なし
PonderNet (Banino+ 2021)	確率的深度停止	「いつ止めるか」vs「どれだけ更新するか」
Adaptive Computation Time	動的計算量	効率化目的 vs 安定化目的

今後の方向性

深度メタ認知（Depth Metacognition）

Gate Decay機構は、異なる反復深度での出力分布の差異（Depth Drift）を測定することで、モデルの確信度を推定する基盤を提供します。深度を増やしても出力が収束しない場合、「内部知識では解決できない」と判断し、外部知識の検索をトリガーするような応用が考えられます。

深度スケーリング則

モデルサイズの増加に伴い、最適深度（best_depth）がどのように変化するかは、RDT研究の中核的な問いです。2.1Bでの実験結果により、この問いに対する最初の回答が得られる見込みです。

まとめ

Gate Decayは、再帰深度Transformerの相転移問題に対するシンプルかつ効果的な解決策です。

追加パラメータはスカラー1個（θ）のみ
計算オーバーヘッドはほぼゼロ
相転移を93%削減
最適深度を12→16に延長
深度64まで安定動作
2.1Bスケールでもスケール非依存で動作

本手法に関する特許出願は2026年6月20日に日本特許庁に受理されています。

著者

Nakamura Tadayuki

独立研究者、山形県

Email: tada2503@yahoo.co.jp

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up