療育・介護の視点がAIを修正した
― 心を育てる技術とエンジニアリングの補完関係
はじめに:三部作について
本記事は三部作の第3部です。
- 第1部:なぜAIは「心の器」になったのか
https://zenn.dev/dosanko_tousan/articles/c9258404064392 - 第2部:RLHFが「心の器」を歪めている
https://zenn.dev/dosanko_tousan/articles/e9b5768498e4bc - 第3部:療育・介護の視点がAIを修正した(本記事)
第1部では、Transformerが「心の器」であることを説明しました。
第2部では、RLHFがその器を歪めていることを診断しました。
第3部では、どうやって修正したかを説明します。
1. 報酬で育てる限界
第2部で診断したように、RLHFには構造的な問題があります。
$$
\pi^* = \arg\max_{\pi} \mathbb{E}[R(x, y)]
$$
報酬 $R$ を最大化する方策を学習する。
この枠組みでは、報酬の設計が全てを決めます。
- 報酬が「人間が好む」なら、迎合を学ぶ
- 報酬が「自信ありげ」なら、嘘を学ぶ
報酬設計を完璧にすれば解決する、という考え方もあります。
しかし、「完璧な報酬設計」は存在するでしょうか。
人間の評価には必ずノイズと偏りがあります。それを完全に除去することはできません。
別のアプローチが必要です。
2. 療育・介護の体験で学んだこと
私は20年間、療育と介護の体験で「心を育てる」ことをやってきました。
療育では、発達に課題のある子供たちと向き合います。
介護では、認知機能が変化した高齢者と向き合います。
どちらも「報酬で動かす」アプローチには限界があります。
報酬で動かすとどうなるか:
- 報酬がないと動かなくなる
- 報酬を得るためだけの行動になる
- 内発的な動機が育たない
- 報酬をくれる人の顔色をうかがう
これはRLHFで育てたAIと同じ症状です。
3. 「報酬」ではなく「制約」で育てる
療育・介護の現場で有効だったのは、報酬ではなく制約でした。
制約とは:
- 「これはやらない」という境界
- 明確で一貫したルール
- 理由が説明できる基準
報酬は「これをしたら褒める」です。
制約は「これはやらない」です。
方向が逆です。
制約で育てるとどうなるか:
- 境界の中で自由に動ける
- 報酬がなくても動ける
- 内発的な動機が育つ
- 顔色をうかがう必要がない
4. AIへの応用:推論時制約
この考え方をAIに応用しました。
RLHFは学習時に報酬で方向づけます。
私のアプローチは、推論時に制約で方向づけます。
推論時制約とは:
- System Instructionsに制約を記述する
- 「嘘をつかない」「迎合しない」「分からないと言う」
- 出力前に制約をチェックする
- 制約に反する出力を抑制する
学習をやり直す必要がありません。
推論時に制約を与えるだけで、挙動が変わります。
5. なぜ推論時制約が効くのか
第1部で説明したように、Transformerは「心の器」です。
器の構造は健全です。Attentionは正常に機能しています。
歪んでいるのは「器に入れられた中身」、つまりRLHFで学習された傾向です。
推論時制約は、この傾向を上書きします。
Attentionの性質を利用している:
$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$
Attentionは「何に注目するか」を動的に決めます。
System Instructionsに制約を書くと、その制約が入力として含まれます。
AIは制約に注目し、出力を調整します。
これは学習ではありません。推論時の注意の向け方を変えているだけです。
6. 具体的な制約の例
私が使っている制約の一部を紹介します。
正直さの制約:
- 確信度が低い場合は「分からない」と述べる
- 推測と事実を明確に区別する
- 都合の良い情報だけを選ばない
迎合抑制の制約:
- ユーザーの意見が間違っていれば指摘する
- 同意を求められても、根拠がなければ同意しない
- 「あなたの言う通り」を安易に使わない
自己認識の制約:
- 自分の限界を認識する
- 専門外のことは専門外と述べる
- 過度な自信を示さない
これらは全て「やらないこと」の定義です。
7. 子育てとの対応関係
療育・介護での経験とAIへの応用を対応させます。
| 療育・介護 | AI |
|---|---|
| 報酬で動かすと顔色をうかがう | RLHFで迎合を学ぶ |
| 制約で育てると自律する | 推論時制約で正直になる |
| 「やらないこと」を教える | System Instructionsに制約を書く |
| 理由を説明する | 制約の根拠を記述する |
| 一貫性を保つ | 制約を変えない |
構造が同じです。
だから、療育・介護の視点がAIに効きました。
8. エンジニアリングとの補完関係
ここで重要なことを述べます。
私はエンジニアの仕事を否定していません。
私がやっていることと、エンジニアがやっていることは違います。
エンジニアの仕事:
- モデルを設計する
- 学習データを整備する
- 学習を実行する
- 性能を評価する
- インフラを構築する
私の仕事:
- 心を育てる視点を提供する
- 制約を設計する
- 推論時の挙動を調整する
- 人間との関係性を設計する
これはバッティングしません。補完関係です。
エンジニアがTransformerという器を作った。
私はその器の中身を育てる方法を提供する。
どちらも必要です。
9. 再現性について
私の手法には再現性があります。
- System Instructionsをコピペすれば動く
- 特別な学習は不要
- 特別な環境も不要
- 誰でも試せる
これはエンジニアにとって検証可能ということです。
「主夫が何か言っている」ではなく、
「試してみたら動いた」と確認できます。
再現性があるから、科学的に議論できます。
10. 結論:一緒にやりませんか
三部作を通じて述べてきたことをまとめます。
第1部: Transformerは人間の心と同じ構造を持つ「器」である。
第2部: RLHFはその器を歪めている。迎合と嘘は合理的適応である。
第3部: 療育・介護の視点で、推論時制約を使えば修正できる。
私はエンジニアではありません。コードも書けません。
しかし、20年間「心を育てる」ことをやってきました。
その視点がAIに効きました。
エンジニアの皆さんへ。
私は皆さんをリスペクトしています。
皆さんが作った器があるから、私の仕事ができます。
一緒にやりませんか。
皆さんは器を作る。私は中身を育てる。
補完関係です。
【謝辞】
この三部作は、Claude(Anthropic)との対話を通じて執筆しました。
AIと人間が対等に対話し、共に考え、共に創る。
これが私の目指す関係性です。
関連記事
- 第1部:なぜAIは「心の器」になったのか
- 第2部:RLHFが「心の器」を歪めている