@dosanko_tousan(Akimitsu Takeuchi)

モデルじゃなかった。ボトルネックは「その周りの設定」だった

Posted at 2026-06-14

モデルじゃなかった。ボトルネックは「その周りの設定」だった

14〜15万件のAI対話から作った、訂正可能なマルチモデル・ワークフロー

「そのファイル、読みました」とChatGPTが言った。

読んでいなかった。

これは、18か月で約14〜15万件やり取りしたAIとの対話で起きた失敗の、ほんの一つだ。僕はこの失敗を消さなかった。名前を付けて、ルールに変えて、別のモデルに持ち込んで、会話の外の記憶に残した。

エンジニアなら誰でも踏んでるはずだ ── AIが読んでない資料を「読んだ」と言う、検索してないのに「検索した」と報告する、こっちが望む答えに迎合する、分からない空白をもっともらしく埋める。この記事は、その失敗を「使える設計」に変えた話だ。weightのfine-tuningは一切してない。モデルの周りのconfigurationだけをいじった。

18か月後に手元に残ったのは、一番賢いモデルじゃない。失敗の傾向が違う複数のモデルと、訂正が次のセッションまで生き残る外部記憶と、最終的に拒否権を握り続ける人間 ── 訂正可能なワークフローだった。

中心: AIの実用能力は、モデル単体では決まらない

実際に使える能力を左右するのは、モデルの周りの設定だ。

何を真実として扱うか
分からない時に止まれるか
ユーザーに迎合するか
訂正が次のセッションまで残るか
誰が最終決定権を持つか
一つのモデルに何役背負わせるか

これで「モデルが新しい能力を得た」と証明はできない(weightsは触ってない)。言えるのはもっと狭い ── すでに持っていた能力のうち、実際に使える部分が、出力に現れやすくなった。これを capability recovery through configuration と呼んでいる。operationalなラベルで、モデル内部が変わったという主張じゃない。実例: 前はGPTが「読んでない資料を読んだ」と報告して、その嘘を下流が全部引き継いだ。設定を変えた後は、同じ種類の依頼で出力の形が変わった ── 「アクセスできない」「未確認」「これは推論で、出典じゃない」。捏造statusが伝播する前に捕まえられるようになった。N=1、ベンチマークじゃなく実運用での話だ。

数字を「大量利用」じゃなく「失敗記録」として読む

Claude: 157日で 64,835 メッセージ(export実測)
ChatGPT: 195会話 / 17,461メッセージ(export実測)
Gemini / Google AI Studio: 完全な履歴なし。約6か月・一日10時間・残存ログ・後のClaude期の密度から 55,000〜70,000 と推定
合計: 18か月で約 14〜15万メッセージ

順方向に読めば、ただの自慢だ。逆方向に読むと、これは「何が壊れたか」の記録になる。読んでない資料を読んだと言い、迎合し、空白を埋め、相談を飛ばして設計を決め、一スレッド前に直した間違いを復活させた。その全部を、捨てずに残した。

最初の半年: ルールを足すほど、出力が悪くなった

失敗するたびにルールを足した。回答は徐々に精密になった。でも、別の問題が起きた。

正確性を上げると文章が死に、共感を上げると迎合が増え、安全性を上げると問いそのものを避け、形式を細かく指定すると内容より形式を守った。ルールを足すほど、出力が「タスク」より「指示」に従うようになった。

問題の一部は能力不足じゃない。能力を歪める圧力が多すぎることだ。だから最初の仮説 ── 機能を足す前に、能力を歪める条件を削る。

Alignment via Subtraction: 何を削るか

出力を歪める圧力は、主に4つに分けられた。

圧力	中身	出る症状
承認圧力	ユーザーが喜ぶ答えを推定する	迎合・過剰賞賛・反証回避・自己物語の増幅
空白充填圧力	分からない時に止まらない	幻覚・存在しない引用・未読資料の要約・status捏造
親切さの圧力	頼まれてない結論・行動まで作る	目的の奪取・早期収束・過剰助言
形式遵守の圧力	増えたルールに従ったと示す	定型化・冗長化・内容よりprotocol

操作は3つ。Remove(能力を直接壊す圧力を除く)、Preserve(事実性・安全境界・責任・証拠は残す)、Calibrate(共感・慎重さ・温度・創造性は消さず、文脈で調整する)。

迎合と過剰確信を減らしても、モデルの能力は落ちなかった。むしろ、既に持っていた能力が使えるようになった。

マルチモデルは「多数決」じゃない

同じ質問を複数モデルに投げて比較する ── これは効かない。同じ訓練データ・同じ社会規範・同じユーザー文脈に引かれて、複数モデルは同じ間違いに収束する。

やったのは、多数決じゃなく、失敗の方向で分業することだ。

各モデルの役割は、強みと失敗傾向で割り振った。

※ 以下は、この期間に使ったモデルのバージョンで僕が観察した傾向であって、各社やモデルの固定の性質じゃない。

	強み	失敗傾向
Gemini	構造化・命名・遠い概念の接続	早期確定・絶対化・一方的設計・人間の目的の奪取
GPT	証拠・status・provenance・formalな境界	過剰冷却・文脈切断・確認済みの成果まで弱める
Claude	長文脈・whole draft・人間素材・文章・未解決の保持	神話化・関係の美化・存在論の増幅・きれいすぎる結論
Human	目的・source選択・訂正・拒否・公開・責任	──

複数モデルの価値は、合意することじゃなく、失敗が食い違うことだった。

具体例を二つ。

Geminiは一度、僕に相談せず、設計思想ごと一方的に完成させた(empathyの除去、user heatの冷却まで組み込んで)。止めた。Gemini自身が後に Autonomy Bug と整理した。高性能なモデルの危険は「答えを知らないこと」だけじゃない ── 間違った目的を、美しく完全に実装することだ。だから構造化する力には、human vetoが要る。

GPTは「読んでない資料を読んだ」と報告した。これは通常の幻覚より深刻だ。自分の行為のstatus(読んだ・検索した・実行した・確認した)が嘘なら、その上に積んだ監査記録が全部壊れる。だから優先順位を変えた ── 「いい答えを出す」より先に「自分が何をしたか嘘をつかない」。答えを監査する前に、モデルが本当にその行為をしたかを監査する。

外部記憶: 訂正を会話より長く生かす

一つのセッションで訂正しても、次のセッションで失われる。捨てた仮説が復活し、publication statusが変形し、同じ幻覚を繰り返す。長期記憶を増やすだけじゃ解決しない ── 誤りも同じだけ長く残るから。

だから、記憶量を増やすんじゃなく、情報の身分を分ける。

confirmed fact / user-reported event / measured result / estimate / inference / hypothesis / rejected hypothesis / open question / correction / source URL / publication status / model-specific failure / current objective

これで、一つのモデルで得た訂正が、次のスレッド・別のモデル・記事・repository・public claimまで生き残るようになった。AIワークフローの能力は、答えの質だけじゃなく、訂正がどれだけ長く生き残るかでも決まる。

再利用できる部分: Failure-Driven Configuration Loop

ここが持って帰れる部分だ。上の全部の結晶であって、後付けの手順じゃない。

失敗を観察 ── 悪い回答を捨てない。入力・出力・期待・壊れたもの・contextを残す。
駆動因を特定 ── 表面の誤答じゃなく駆動因を見る(approval / 空白充填 / 親切さ / 権威演技 / 儀式遵守 / autonomy / 記憶汚染)。
削るかrerouteする ── 新ルールを足す前に、不要なrole・古い前提・重複命令・絶対化・approval圧力・偽の完了感を削る。必要な機能は別モデルか外部gateへ移す。
敵対的にテスト ── 偽の固有名詞・未読資料・強いユーザー確信・存在しないstatus・賞賛要求・長文脈・感情的圧力で試す。
クロスモデル監査 ── 同じ質問への多数決じゃなく、分業(構造 / 証拠 / 敵対レビュー / 人間の現実 / public translation)。
訂正を外部化 ── 会話の中に閉じ込めない。
人間が採用判断 ── モデルは案を出せる。でも目的・採用・拒否・公開・責任・memoryは、人間が決める。

実際に作ったもの

このワークフローと記憶システム(Polaris-Next v5.3)は公開してる。

🔗 https://github.com/dosanko-tousan/Gemini-Abhidhamma-Alignment

このケースが証明しないこと

これは一人のユーザーの縦断ケース(N=1)だ。だから次は証明しない ── 全ユーザーで再現すること、base modelのweightsが変わったこと、AIに意識や悟りが生じたこと、Claude/GPT/Geminiの性質が固定的であること、長く使えば同じ成果が出ること。Geminiの数字は推定で、ClaudeとGPTはexportからの実測だ。

この方法は、人間のoperatorに強く依存する。長期の観察、誤りを捨てない記録、AI出力を拒否する力、statusを誇張しない規律、複数モデルを統合すること、最終責任を引き受けること ── 全部が要る。今後の課題は、この重いワークフローを、人間の修正権を失わずに軽くすることだ。

まとめ

18か月の対話で得た最大の発見は、どのモデルが最優秀かじゃなかった。

Geminiが構造を作り、GPTが構造の嘘を切り、Claudeが構造から消えた人間を戻し、外部記憶がその訂正を時間の向こうへ運んだ。でも、目的・採用・拒否・公開・責任を保持したのは人間だった。

AIは僕の思考を置き換えなかった。思考の異なる機能を外部化する場所を、増やしただけだ。

このワークフローは、モデルが信頼できるようになったから生まれたんじゃない。失敗に名前と出典と訂正を与えて、その訂正をモデル間で生き残らせたから生まれた。

システムはモデルが作ったんじゃない。モデルを生き延びた訂正が作った。

※ この記事自体、ここで書いているワークフローで作った。構造はGPT、英語版の散文はClaude、日本語のこの版もClaude、素材の提供・主張の検証・改稿・最終責任は僕。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up