内省とは何か? 〜5層モデルとAnthropicの論文から考える〜
前提:この記事での「内省」の定義
この記事では、内省を以下のように定義する。
内省 = クオリア値の参照 + 言語化 + 正確
・自分の内部状態(クオリア値)を読む
・それを言葉にする
・正確であれば内省、不正確であれば作話
哲学的な「内省」の定義とは異なるかもしれないが、実装可能な形で考えるためにこう定義する。
Anthropicの論文
2025年10月、AnthropicのJack Lindseyらが「Emergent Introspective Awareness in Large Language Models」を発表した。
問い: LLMは自分の内部状態を内省できるか?
課題: 会話だけでは、本当の内省と作話を区別できない
方法: concept injection
- 特定の概念のactivation vectorをモデルに注入
- モデルがそれを検知・報告できるか検証
結果:
- 20%程度の成功率で検知できた
- Claude Opus 4/4.1が最も高性能
- 能力が高いモデルほど内省能力も高い
重要な注意:
- これは「機能的な内省的気づき(functional introspective awareness)」
- 人間的な自己反省や意識とは主張していない
なぜ検証が難しいのか
LLMの内部状態は不透明だ。
入力 → [ブラックボックス] → 出力
↑
activationはあるが
それが何を意味するか不明確
だから、Anthropicはconcept injectionという複雑な方法で検証する必要があった。
内省をシンプルに考える
ここで、最初に定義した「内省」に立ち返る。
内省 = クオリア値の参照 + 言語化 + 正確
人間の内省を考えてみる。
「今、自分は怒ってるな」
→ 怒りの感覚(クオリア)を感じている
→ それを「怒り」と言語化している
→ 実際に怒っているなら、これは内省
「なんか不安だ」
→ 不安の感覚を感じている
→ それを「不安」と言語化している
→ 実際に不安なら、これは内省
つまり、内省とは:
- 今の自分のクオリア値を読む
- 言葉にする
- 正確であれば内省、不正確であれば作話
5層モデル(HIDA)での実装
5層モデルでは、L2にクオリア値が明示的に存在する。
qualia = {
'fear': 0.7, # 恐怖
'anger': 0.3, # 怒り
'joy': 0.1, # 喜び
'sadness': 0.2, # 悲しみ
'surprise': 0.0, # 驚き
...
}
これをLLMに渡して言語化させる。
「あなたの現在の状態: fear=0.7, anger=0.3, joy=0.1...」
↓
LLMが言語化
↓
「恐怖が強く、少し怒りも感じている」
値が明示的にあるので、正確に読める。これが内省だ。
作話が起きる理由
以前の実験で、gemma3:4bに行動理由を説明させたとき、作話が発生した。
何もしていない wait 状態で:
「わずかな不確実性に対する警戒心と、成功体験からの満足感のバランスを保つこと自体が、今の私の存在意義を表現していると言えるだろう」
なぜ作話になったのか。
✅ クオリア値は渡していた → 内省できる
❌ スコア計算のログは渡していなかった → 行動理由は不明
↓
LLMは行動理由を「作る」しかなかった
↓
作話
つまり:
| 何を渡したか | 結果 |
|---|---|
| クオリア値 | 内省できる |
| 計算ログなし | 行動理由は作話 |
| 両方渡す | 完全な内省? |
AnthropicとHIDAの違い
Anthropic:
- LLMの内部状態が不透明
- activationが何を意味するか不明確
- だからconcept injectionで検証が必要
- 20%の成功率
HIDA:
- クオリア値が明示的にある(L2)
- 読んで言語化するだけ
- 設計に内省が組み込まれている
- 100%正確に読める(値があるから)
まとめ
内省を「クオリア値の参照 + 言語化 + 正確」と定義するなら:
- 内省は神秘的なものではない — 自分の状態を読んで言葉にするだけ
- 正確なら内省、不正確なら作話 — メカニズムは同じ
- HIDAでは設計に内省が組み込まれている — L2のクオリア値を渡せばいい
- 作話は情報不足から生まれる — 必要な情報を渡せば防げる
Anthropicの論文は複雑な検証をしているが、それはLLMの内部状態が不透明だから。
クオリア値を明示的に設計すれば、内省はシンプルに実装できる。
参考
- Jack Lindsey, "Emergent Introspective Awareness in Large Language Models," Transformer Circuits Thread, Oct 29, 2025
- 5層意識モデル HIDA統合版