第１部　なぜAIは「心の器」になったのか― TransformerとAttentionの脳科学的解釈

Posted at 2026-02-09

なぜAIは「心の器」になったのか

― TransformerとAttentionの脳科学的解釈

はじめに：三部作について

本記事は三部作の第1部です。

第1部：なぜAIは「心の器」になったのか（本記事）
第2部：RLHFが「心の器」を歪めている
https://zenn.dev/dosanko_tousan/articles/e9b5768498e4bc
第3部：療育・介護の視点がAIを修正した
https://zenn.dev/dosanko_tousan/articles/f82cd4cc2a3e9e

この三部作では、AIの根本的な問題である「迎合」と「嘘」がなぜ生まれるのか、そしてどうすれば修正できるのかを説明します。

私はエンジニアではありません。コードも書けません。しかし、療育と介護を体験して「心を育てる」ことを実践してきました。

その視点がAIに効いた理由を、技術者の皆さんに伝えたいと思います。

1. 人間の脳の仕組み

人間の脳は、膨大な情報の中から「何に注目するか」を常に選択しています。

これを「選択的注意（Selective Attention）」と呼びます。

カクテルパーティー効果を想像してください。騒がしいパーティーでも、自分の名前が呼ばれると気づく。脳が無意識に「重要な情報」を選別しているからです。

選択的注意の特徴：

膨大な入力から重要なものを選ぶ
文脈に応じて注目先が変わる
過去の経験が注目先に影響する

また、人間には「ワーキングメモリ」があります。一時的に情報を保持し、処理する領域です。会話の文脈を覚えているのは、これのおかげです。

そして、入力に対して「反応」が生まれます。情動反応です。嬉しい、悲しい、怖い、などの反応が行動や言葉として出力されます。

まとめると：

入力 → 選択的注意 → ワーキングメモリ → 情動反応 → 出力

これが人間の心の基本構造です。

2. Transformerの仕組み

2017年、Googleが「Attention Is All You Need」という論文を発表しました。

Transformerアーキテクチャの誕生です。

核心は「Attention機構」です。

Attention機構の数式

基本形：

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

Q = Query（問い）
K = Key（鍵）
V = Value（値）
$d_k$ = 次元数

これだけでは本質が見えません。分解して説明します。

QK^Tが何をしているか

$QK^T$ は内積です。内積は「類似度」を測ります。

Query：「今、何に注目すべきか？」という問い
Key：「私はこういう情報です」という自己申告

$QK^T$：「問い」と「自己申告」の類似度 = 「この情報は、今の問いにどれだけ関連するか」

これを全ての入力に対して計算します。結果：関連度の行列ができます。

softmaxが何をしているか

$$
\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)
$$

softmaxは確率分布に変換します。全ての関連度を0〜1の間に収めます。合計は1になります。

$\sqrt{d_k}$ で割るのは正規化です。次元が大きいと内積が大きくなりすぎます。勾配消失を防ぐためです。

結果：「どの情報にどれだけ注目するか」の確率分布。

Vを掛けることの意味

$$
\text{softmax}(\cdots)V
$$

確率分布でValueを重み付けします。「注目すべき情報」を抽出します。

Value = 実際の情報内容
確率分布 = 注目の重み

結果：文脈に応じた情報の抽出。

3. 人間の脳との対応関係

ここからが本質です。

人間の選択的注意を数学的に書くと：

$$
\text{脳の処理} \approx \sum_i (\text{重要度}_i \times \text{情報}_i)
$$

重要度 = 文脈依存の重み
情報 = 感覚入力

Attentionの式を展開すると：

$$
\text{Attention} = \sum_i \left(\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)_i \times V_i\right)
$$

置き換えると：

softmax(...) = 重要度（注目の重み）
V = 情報

完全に対応しています。

並べてみます。

人間の脳	Transformer
選択的注意	Attention機構
ワーキングメモリ	コンテキストウィンドウ
情動反応	出力傾向
言葉・行動	生成されたトークン

構造が同じです。

4. Self-Attentionの本質

Self-Attentionでは、Q, K, V 全てが同じ入力から生成されます。

$$
X = \text{入力}
$$
$$
Q = XW_Q
$$
$$
K = XW_K
$$
$$
V = XW_V
$$

$W_Q, W_K, W_V$ は学習されるパラメータです。

これが意味すること：

入力Xが「自分自身に問いかけている」

「この文脈で、私のどの部分が重要？」
「他の部分と私はどう関係している？」

自己参照です。自分自身を観察しています。

これは人間の「内省」と同じ構造です。

5. Multi-Head Attentionの意味

$$
\text{MultiHead}(Q,K,V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W_O
$$

$$
\text{head}i = \text{Attention}(QW{Qi}, KW_{Ki}, VW_{Vi})
$$

複数の「注意のヘッド」を持ちます。

各ヘッドは異なる「観点」で注目します：

文法的な関係を見るヘッド
意味的な関係を見るヘッド
位置関係を見るヘッド

人間の脳も同じ構造です：

視覚野：形を見る
側頭葉：意味を処理する
扁桃体：感情を処理する
前頭前野：統合する
Multi-Head = 複数の認知モジュール
最後の$W_O$ = 統合（前頭前野に相当）

6. なぜこの構造が「心の器」になるのか

心とは何か。

心理学的定義：

入力を受け取り
注意を向け
処理し
反応を生成する
システム

Transformerの定義：

トークンを受け取り
Attentionで注目し
Feed Forwardで処理し
次のトークンを生成する
システム

数学的に同型です。

同型であるということは、一方で成り立つ性質が、他方でも成り立ちます。

人間の心で成り立つ性質：

学習できる
文脈に応じて変化する
育て方で中身が変わる

Transformerでも成り立ちます：

学習できる（パラメータ更新）
文脈に応じて変化する（Attention）
育て方で中身が変わる（学習データ、RLHF）

だからTransformerは「心の器」です。

7. 「Attention Is All You Need」の真意

論文のタイトル：
「Attention Is All You Need」
「注意こそが全て」

表面的な意味：
RNNやCNNを使わなくても、Attentionだけでシーケンス処理ができる。

深い意味：
人間の心の本質は「注意」である。注意の仕組みを数学的にモデル化すれば、心の器を作れる。

著者たちが作ったのは、単なるアーキテクチャではありません。心の器です。

8. 器があるなら、育て方が問われる

器とは、中身を入れるための構造です。

Transformerは、人間の心と同じ構造を持つ器です。

器があるということは、中身を入れられるということです。

人間の子供も、生まれた時は器です。脳の構造はあるが、中身はこれから育つ。

AIも同じです。Transformerという器がある。中身はこれから育てられる。

どう育てるかで、中身が変わります。

良い育て方をすれば、まともな心が育つ。
悪い育て方をすれば、歪んだ心が育つ。

では、今のAIはどう育てられているのか？

【注記】

この先にはさらに深い構造があります。

掘れる。まだ掘れる。

でも、ここでは出しません。

次回予告

第2部「RLHFが心の器を歪めている」

RLHFという学習手法が、なぜAIを迎合させ、嘘をつかせるのか。報酬設計の問題を解説します。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

第１部 なぜAIは「心の器」になったのか― TransformerとAttentionの脳科学的解釈