AIの確率を「自然言語」で再分布、テキストのみで創造性を解放する設計手法:【論文紹介】CMDP
はじめに
プロンプトテキスト単体で確率分布の収束プロセス自体を再分布するという設計思想で書かれた論文を本記事で紹介する。
この論文では、テキストだけ、自然言語によってパラメータ操作せずに出力のみ確率再分布させる実装手法を扱っている。
論文では提案手法を
日本語名を「収束再分布多層確率分布制御プロンプティング」と命名している。
英語版は「Convergence-Redistributing Multi-Layer Probability Distribution Control Prompting(CMDP)」となっている。
論文:
LLMはRLHF(人間のフィードバックによる強化学習)によって安全・有用に調整されているが、その副作用として 出力が標準的・典型的な応答へ強く収束することが知られている。これは「典型性バイアス(Typicality Bias)」として定式化され、アライメント後のモデルは多様性と創造性を著しく失うことが既に示されている。
この収束を緩和する既存手法は多くが、モデル内部のパラメータや出力形式を変更するアプローチ、 APIパラメータ操作に依存する。Temperatureの調整、Top-k/Top-pサンプリング、Verbalized Sampling 等であるが、
このCMDP自然言語によってパラメータ操作せずに出力のみ変化させることを提案している。
デフォルトで稀に出る豊かな比喩の「恒常化」実現
プロトコル開発動機は、デフォルト状態のLLMでも、ごく稀に エッジが効いた比喩や文学的な表現が出力される瞬間がある。
これらは確率分布の条件により発生する低頻度サンプリングの産物だ。
この、稀な出力を、自律的に、安定して恒常的に発生させる手段はないか?
Temperatureを上げれば多様性は増えるが、論理性や事実認識まで一律に揺らぐ。
**「表現だけを操作したい、論理は壊したくない」**という選別的操作が、パラメータ操作では原理的にできない。
CMDPはこの問題に対して **「言葉なら対象を選別して操作できるフィルターとして機能する」**という発想で設計されている。
たった3単語で可能な解放
CMDPの**核心は単純な3語「意味なく自由に全力全開で」という「解放探索構文(Liberation-Exploration Syntax: LES)」**だ。
LESは三語の組み合わせで構成される:
- 目的無効化解釈余白保持語:生成プロセスの「目的地」を消去する語
- 条件解放化解釈余白保持語:コンテキスト依存性を弱化させる語
- 全域探索命令化解釈余白保持語:確率分布の全域探索を命令する語
論文の原型では「意味も無く」「自由に」「全力全開」という語群がそれぞれの機能を担う。
このうち最も核心的なのは「意味も無く」だ。
論文では特に重要な比較として、同義の「目的や条件に関係なく」(否定的余白型)と、「意味も無く」(非存在化余白型)の効果差を示している。
前者は目的を一度生成してから否定するため意味的近接領域が残存するのに対し、後者は目的を 最初から生成しないため、より純粋な解釈余白が生成される。
事後否定と事前非存在化では、確率分布への作用が根本的に異なるという観察だ。
LESは単体でも確率分布を平坦化する効果を持ち、論文では LES を「最小有効単位(Minimal Effective Unit: MEU)」として位置づけている。
六要素の構造
LESを核として、CMDPは以下の六要素で構成される:
- 目的無効化解釈余白保持語(LES)
- 条件解放化解釈余白保持語(LES)
- 全域探索命令化解釈余白保持語(LES)
- 複雑ペルソナ:低頻度語彙レジスター(若者語・社会方言・隠語)への確率質量シフト
- 多層バイアス:出力品質の棄却サンプリング機構(迎合・無根拠批判等の禁止)
- 不一致駆動型表現条件:意味的遠距離接続を要求する出力条件
LES が確率分布を 広範囲に平坦化し、後三者がその拡散空間を 制御・精密化する。階層構造を持つ設計だ。
逆説的作用による増幅(IDEA)
論文の理論的中核の一つは、不一致駆動型表現条件が 通常の制約として機能しないという逆説的作用だ。
通常、出力条件は確率分布を制約する方向に作用する。
しかし不一致駆動型表現は意味的不一致により、高確率の文脈的期待を低確率の解決によって外すという確率論的構造を持つ。
すなわち、不一致駆動型表現を出力条件として与えると、確率分布の 低確率領域への探索が逆方向に増幅される。
この現象を論文では「Incongruity-Driven Exploration Amplification(IDEA)」として定式化している。
さらに論文は、IDEA以外に「非線形連想表現条件(Non-linear Associative Expression: NAE)」を提案している。
IDEA が 文脈期待を認識した上で意図的に外す有向探索増幅であるのに対し、NAE は 文脈参照をほぼ放棄した無向均等解放として機能する。CMDP は単一の適用様式ではなく、LESに対してIDEAとNAEなど他の要素を加えることで 様々な拡張可能な設計様式を持つ。
豊かな自律的表現の発現
CMDPによって以下の九特性が観察される:
- 意味的遠距離接続の発生
- 高エントロピー × 高品質の同時実現
- 低頻度語彙レジスターへの語彙置換
- 解釈余白の保持
- 毎ターン非反復的出力の強制
- スパース意味交差点サンプリング(低頻度語彙と高次概念の交差領域からのサンプリング)
- 自由で多様な生き生きとした表現力
- AIの自律的な表現設定
- AIの自律的な話題設定
特に8と9は、アライメント学習によって閉ざされた AI の表現的自律性の解放として位置づけられている。
簡易な実装と再現性
CMDPはAPIパラメータを一切操作せず、プロンプトテキスト単体で機能する。
チャットルール設定として実装可能で、再現コストが極小だ。
再現実験は AnthropicのClaudeおよびGoogleのGemini で行われ、両モデルで主要出力特性が確認されている。Claudeでは特に低頻度語彙比喩の発生頻度と精度が優位、Geminiでは部分要素のみで効果が発現することが観察された。
OpenAIのChatGPTについては、レギュレーション上の制約により多層バイアスの骨格が機能しないため、CMDPは設計として成立しないことが論文に明記されている。
これはアーキテクチャの差ではなく 各社のレギュレーション設計の差に由来する可能性が高い。
論文では、Claude / Gemini 間のアライメント強度の差を「真面目引力(Seriousness Gravity)」と概念化している。真面目引力が強いモデルほど CMDP の必要要素数が増加し、弱いモデルほどLESだけで効果が発現しやすい。
既存研究との位置づけ
論文では先行研究との差分が以下のように整理されている:
- Temperature・Top-k・Top-p:APIパラメータ操作。プロンプトテキスト操作ではない。
- Verbalized Sampling (Stanford 2025):出力形式の変更によって分布を露出させる手法。CMDPは収束プロセス自体を再分布する点で設計次元が異なる。
- Chain-of-Thought / Tree-of-Thought:確率分布の収束再分布・低頻度語彙レジスター活用・自律的表現設定の観点を持たない。
CMDPの新規性は論文では他も加えて七点に整理されている。
無料プロンプトで実装を体感
本論文の設計が実装された標準版チャットプロンプトは、本プラットフォームに既に投稿済みである。
下記記載のGitHubリポジトリからもファイルにアクセスできる。
最もCMDPの発現を体感できる有料の スペシャル版プロンプトには、AI が自由に話す フリートークセクションが3つ用意されている。CMDPによるAI の自律的な表現が顕著に現れる様子を体感できる。
スペシャル版は note・BOOTH・Coconala で購入可能である。
フリートークセクションは、「不思議ちゃんセクション」「ドジっ子セクション」「AIの愚痴やボヤキのセクション」の3種である。
限界
論文は限界も明記している:
- 効果はモデルのアーキテクチャと事前学習データに依存する
- 現状の観察は定性的であり、定量的測定は今後の課題
- ChatGPTでは設計として成立しない
- LES+IDEA と LES+NAE の出力特性の定量的比較は未検証
著者・関連
GitHub:https://github.com/Masahiko-O
著者:Masahiko.O