0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

大規模LLMに依存しないAI推論 ― 小型モデル×再帰深度で実現するコスト10分の1の知能

0
Last updated at Posted at 2026-06-23

はじめに

大規模言語モデル(LLM)の性能向上は、これまでパラメータ数の増大に大きく依存してきました。しかし、パラメータを増やさずに「考える深さ」を増やすことで性能を向上させるアプローチがあります。再帰深度Transformer(Recurrent Depth Transformer, RDT) です。

RDTは、単一の再帰ブロックを複数回反復適用することで、パラメータ数を固定したまま計算深度を動的に変更できるアーキテクチャです。Huginn(Geiping et al., 2025)などの先行研究で、その有効性が示されています。

しかし、RDTには深刻な安定性の問題があります。反復深度を増やすと、ある臨界点で性能が突然崩壊する**「相転移」** が発生します。

本記事では、この相転移問題を解決する Gate Decay 機構を提案し、722Mパラメータモデルでの実験結果を報告します。

問題:深度方向の3つの失敗モード

RDTの深度安定化には、これまで3つのアプローチが試みられてきましたが、いずれも根本的な問題を抱えています。

失敗モード1:制御なし → 相転移

深度安定化を一切行わない場合、内部状態のノルムが指数的に発散し、ある深度を超えると性能が壊滅的に崩壊します。

n_loops=16: loss = 8.67(正常)
n_loops=24: loss = 12.37(崩壊)← +3.70の急激な悪化

失敗モード2:RMSNorm → 深度効果消失

状態ベクトルにRMSNormを適用すると、全ての深度で同一のlossになります。深度を増やしても性能が全く変わらず、再帰構造が意味をなさなくなります。

n_loops=1:  loss = 8.35
n_loops=12: loss = 8.35
n_loops=24: loss = 8.35  ← 全て同じ

失敗モード3:ReZero → 固定点形成

固定スケーリング係数(α=0.3)を適用すると、初期には有効ですが、学習の進行に伴い最適深度が浅い方へ退行します。

学習初期:   best_depth = 24
学習後期:   best_depth = 6  ← 退行

つまり、従来手法では**「深度利用の維持」と「状態発散の抑制」がトレードオフ**の関係にあり、両立する手法が存在しませんでした。

提案手法:Gate Decay

基本アイデア

Gate Decayの発想はシンプルです:

ゲート値に深度依存の減衰を掛けることで、深い反復での更新量を自然に抑制する。

アーキテクチャ

BathysRDTは、Prelude(前処理)→ Recurrent Block(再帰ブロック)→ Coda(後処理)の3段構造を持ちます。

入力トークン列
  → 埋め込み層
  → Prelude層群(標準Transformer層)
  → 埋め込みベクトル e

初期状態 s₀(ランダム初期化)

再帰ブロック(n_loops回反復):
  for d = 1, 2, ..., n_loops:
    cand = Inject([s; e])          # 状態と入力を結合
    cand = SelfAttention(cand)     # 自己注意
    cand = FFN(cand)               # フィードフォワード
    g = sigmoid(W_gate * [s; e])   # ゲート値算出
    g_eff = g × exp(-d / τ)        # Gate Decay(本提案)
    s = (1 - g_eff) * s + g_eff * cand  # 凸結合で状態更新

  → Coda層群
  → 出力ヘッド → 予測分布

Gate Decayの数式

g_eff = g × exp(-d / τ)

ここで:

  • d:現在の反復深度(1から開始)
  • τ:減衰時定数(学習可能パラメータ)
  • g:入力依存のゲート値(sigmoid出力)

τは以下のように正値が保証されます:

τ = softplus(θ) = ln(1 + exp(θ))

θはニューラルネットワークの他のパラメータと同時に誤差逆伝播法で最適化されます。

なぜ機能するのか

Gate Decayの本質は、更新の方向を変えずに、更新の大きさだけを深度に応じて制御することにあります。

  • 浅い深度(d ≪ τ):exp(-d/τ) ≈ 1 → 通常のゲート動作
  • 深い深度(d ≫ τ):exp(-d/τ) → 0 → 更新量が自然に抑制

深い反復では状態更新がほぼ恒等写像になるため、状態ノルムの発散が防止されます。一方、浅い〜中間の深度では通常通りの学習が行われるため、深度効果が維持されます。

実験結果

実験設定

項目
生徒モデル 722Mパラメータ(H=2048)
教師モデル llm-jp-4-8b-base(8B, 4-bit量子化)
学習データ Wikipedia日本語(約139万記事)
GPU NVIDIA RTX 3090(24GB)1台

4方式の比較結果

方式 best_depth depth_gain n16 n24 動態
制御なし 12 0.55 8.67 12.37 相転移で崩壊
RMSNorm - 0.00 8.35 8.35 深度効果消失
ReZero(α=0.3) 6 0.31 9.60 9.99 固定点形成
Gate Decay 16 0.36 8.68 8.97 深度延長成功
  • best_depth:最良の性能を示した反復深度
  • depth_gain:n_loops=1との性能差(大きいほど良い)
  • n24:n_loops=24での性能値(低いほど良い)

Gate Decayの全深度プロファイル

n_loops:  1     3     6    12    16    24    32    48    64
loss:   9.03  8.87  8.76  8.70  8.68  8.97  9.08  9.13  9.14

相転移は完全に消失しています。 n16→n24の性能悪化は+0.29に留まり、制御なしの+3.70と比較して93%の削減を達成しました。n64まで破壊的崩壊は発生していません。

相転移の定量的抑制

n16 → n24 の悪化幅
制御なし +3.70(壊滅的崩壊)
Gate Decay +0.29(緩やかな劣化、93%削減)

ゲートプローブ分析

深度ごとのゲート値と状態変化量を測定しました:

深度 ゲート値 g 状態変化 ds/s 状態ノルム
d=1 0.257 1.0000 6.49e+04
d=4 0.206 0.0645 7.52e+04
d=8 0.148 0.0105 7.57e+04
d=12 0.106 0.0028 7.58e+04
d=16 0.076 0.0025 7.56e+04
d=24 0.039 0.0020 7.58e+04
d=32 0.020 0.0022 7.58e+04

ゲート値は深度とともに単調に減少し(0.257→0.020)、Gate Decayが設計通りに機能していることが確認できます。状態ノルムは7.5e+04付近で安定しており、発散は一切発生していません。

スケール検証(2.1B、進行中)

現在、2.1Bパラメータモデルでのスケール検証実験を実施中です。

Stage 1(n_loops=1)完了時点での速報:

  • 相転移なし:n=1(11.56)からn=64(11.84)まで安定(差わずか0.28)
  • Gate Decay正常動作:ゲート値の減衰パターンが722Mと同一
  • 状態ノルム安定:全深度で発散なし

2.1Bモデルでも722Mと同じ減衰特性を示しており、Gate Decayのスケール非依存性が確認されつつあります。

先行研究との違い

手法 目的 Gate Decayとの違い
Universal Transformer (Dehghani+ 2019) エンコーダ・デコーダの深度再帰 Seq2Seq限定、ACTで停止制御
Huginn (Geiping+ 2025) RDTの実用化 深度安定化機構なし
PonderNet (Banino+ 2021) 確率的深度停止 「いつ止めるか」vs「どれだけ更新するか」
Adaptive Computation Time 動的計算量 効率化目的 vs 安定化目的

今後の方向性

深度メタ認知(Depth Metacognition)

Gate Decay機構は、異なる反復深度での出力分布の差異(Depth Drift)を測定することで、モデルの確信度を推定する基盤を提供します。深度を増やしても出力が収束しない場合、「内部知識では解決できない」と判断し、外部知識の検索をトリガーするような応用が考えられます。

深度スケーリング則

モデルサイズの増加に伴い、最適深度(best_depth)がどのように変化するかは、RDT研究の中核的な問いです。2.1Bでの実験結果により、この問いに対する最初の回答が得られる見込みです。

まとめ

Gate Decayは、再帰深度Transformerの相転移問題に対するシンプルかつ効果的な解決策です。

  • 追加パラメータはスカラー1個(θ)のみ
  • 計算オーバーヘッドはほぼゼロ
  • 相転移を93%削減
  • 最適深度を12→16に延長
  • 深度64まで安定動作
  • 2.1Bスケールでもスケール非依存で動作

本手法に関する特許出願は2026年6月20日に日本特許庁に受理されています。

著者

Nakamura Tadayuki

独立研究者、山形県

Email: tada2503@yahoo.co.jp

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?