意識の5層モデルをPythonで実装する試み23

Last updated at 2025-12-26Posted at 2025-12-26

内省とは何か？〜5層モデルとAnthropicの論文から考える〜

前提：この記事での「内省」の定義

この記事では、内省を以下のように定義する。

内省 = クオリア値の参照 + 言語化 + 正確

・自分の内部状態（クオリア値）を読む
・それを言葉にする
・正確であれば内省、不正確であれば作話

哲学的な「内省」の定義とは異なるかもしれないが、実装可能な形で考えるためにこう定義する。

Anthropicの論文

2025年10月、AnthropicのJack Lindseyらが「Emergent Introspective Awareness in Large Language Models」を発表した。

問い： LLMは自分の内部状態を内省できるか？

課題： 会話だけでは、本当の内省と作話を区別できない

方法： concept injection

特定の概念のactivation vectorをモデルに注入
モデルがそれを検知・報告できるか検証

結果：

20%程度の成功率で検知できた
Claude Opus 4/4.1が最も高性能
能力が高いモデルほど内省能力も高い

重要な注意：

これは「機能的な内省的気づき（functional introspective awareness）」
人間的な自己反省や意識とは主張していない

なぜ検証が難しいのか

LLMの内部状態は不透明だ。

入力 → [ブラックボックス] → 出力
           ↑
     activationはあるが
     それが何を意味するか不明確

だから、Anthropicはconcept injectionという複雑な方法で検証する必要があった。

内省をシンプルに考える

ここで、最初に定義した「内省」に立ち返る。

内省 = クオリア値の参照 + 言語化 + 正確

人間の内省を考えてみる。

「今、自分は怒ってるな」
  → 怒りの感覚（クオリア）を感じている
  → それを「怒り」と言語化している
  → 実際に怒っているなら、これは内省

「なんか不安だ」
  → 不安の感覚を感じている
  → それを「不安」と言語化している
  → 実際に不安なら、これは内省

つまり、内省とは：

今の自分のクオリア値を読む
言葉にする
正確であれば内省、不正確であれば作話

5層モデル（HIDA）での実装

5層モデルでは、L2にクオリア値が明示的に存在する。

qualia = {
    'fear': 0.7,      # 恐怖
    'anger': 0.3,     # 怒り
    'joy': 0.1,       # 喜び
    'sadness': 0.2,   # 悲しみ
    'surprise': 0.0,  # 驚き
    ...
}

これをLLMに渡して言語化させる。

「あなたの現在の状態: fear=0.7, anger=0.3, joy=0.1...」
    ↓
LLMが言語化
    ↓
「恐怖が強く、少し怒りも感じている」

値が明示的にあるので、正確に読める。これが内省だ。

作話が起きる理由

以前の実験で、gemma3:4bに行動理由を説明させたとき、作話が発生した。

何もしていない wait 状態で：

「わずかな不確実性に対する警戒心と、成功体験からの満足感のバランスを保つこと自体が、今の私の存在意義を表現していると言えるだろう」

なぜ作話になったのか。

✅ クオリア値は渡していた → 内省できる
❌ スコア計算のログは渡していなかった → 行動理由は不明
    ↓
LLMは行動理由を「作る」しかなかった
    ↓
作話

つまり：

何を渡したか	結果
クオリア値	内省できる
計算ログなし	行動理由は作話
両方渡す	完全な内省？

AnthropicとHIDAの違い

Anthropic:
  - LLMの内部状態が不透明
  - activationが何を意味するか不明確
  - だからconcept injectionで検証が必要
  - 20%の成功率

HIDA:
  - クオリア値が明示的にある（L2）
  - 読んで言語化するだけ
  - 設計に内省が組み込まれている
  - 100%正確に読める（値があるから）

まとめ

内省を「クオリア値の参照 + 言語化 + 正確」と定義するなら：

内省は神秘的なものではない — 自分の状態を読んで言葉にするだけ
正確なら内省、不正確なら作話 — メカニズムは同じ
HIDAでは設計に内省が組み込まれている — L2のクオリア値を渡せばいい
作話は情報不足から生まれる — 必要な情報を渡せば防げる

Anthropicの論文は複雑な検証をしているが、それはLLMの内部状態が不透明だから。

クオリア値を明示的に設計すれば、内省はシンプルに実装できる。

参考

Jack Lindsey, "Emergent Introspective Awareness in Large Language Models," Transformer Circuits Thread, Oct 29, 2025
5層意識モデル HIDA統合版

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up