学習なしで“体感”を上げる：Qwenに層コンセンサスとMC合議を差し込んで比較

Last updated at 2025-11-06Posted at 2025-11-06

TL;DR

重み・追加データいじらず、推論器（デコーダ）だけを改造：
① 層コンセンサス（中間層ロジットをJSD重みで統合）
② MC合議（最終隠れ状態にDropoutを注入してK本平均）
Colabで再現できるノート付き。greedy / max_new_tokens=1024で比較。
手元の難問5題では、Layer-Consensus（A）が最も堅実、MC合議（B）は長尺で冗長化が出やすい。

配布ノート：Open In Colab

Baseline：最終層ロジットのみで次トークン決定（合議なし）。
Consensus-A（層コンセンサス）
- output_hidden_states=True で選択層の隠れ状態を取り出し、lm_headで語彙ロジット化。
- 各分布を Jensen–Shannon 距離に基づく重みで合成し、元の最終分布と blend。
- 不一致ゲート：平均JSDが閾値超え時に温度を下げ、上位語彙のユニオン以外を抑制。
Consensus-B（MC合議）
- モデルはevalのまま、最終隠れ状態 h_last にだけ Dropout を注入して K本サンプリング。
- それぞれを lm_head に通して分布を平均（Aの合議に併載）。
- repetition penalty を強めに設定（暴走抑制）。
- 注：層の再前向きはしないため、キャッシュ破壊なしでオーバーヘッドは軽微（lm_head相当×K）。

いずれも LogitsProcessor相当の実装方針で、モデル重みは不変。vLLM等でも常時ON運用がしやすい設計です。

モデル：Qwen/Qwen2.5-1.5B-Instruct
System：公式デフォルト（= userメッセージのみをchat templateに通す）
生成：do_sample=False（greedy）、max_new_tokens=1024
外部ツール/フォーマットクランプ：不使用
ハイパラ（抜粋）
- A：layer_select=(0.33,0.66,-1.0), blend=0.55, jsd_gate=0.06, agree_top_k=60, rep_penalty=1.1
- B：A＋mc_k=3, mc_p=0.1, blend=0.45, rep_penalty=1.12

正答（参照）

所感

Aを堅実寄り：blend=0.50、jsd_gate=0.08、agree_top_k=40、rep_penalty=1.25
Bの暴走抑制：mc_k=2、mc_p=0.08、blend=0.40、rep_penalty=1.30
実装側の小改良（必要なら）：JSD重みの鋭さ（例 alpha=12）、n-gramブロック（3-gram重複の強制抑止）、早期停止（改行/句点で停止）など。