Claudeの憲法(Claude's Constitution)
2026年1月21日に公開されたもので、リード著者のAmanda Askell氏をはじめ、Joe Carlsmith氏、Chris Olah氏、Anthropicのスタッフ、そして複数のClaudeモデル自身の貢献によって作成されました。ざっくりと個人的なまとめを作成しました。
1. 憲法の目的とビジョン
開発の背景と意図
Anthropicの使命は、世界が「変革的なAI」への移行を安全に行えるようにすることです。AIは人類史上最も影響力が大きく、かつ危険な技術になる可能性があるため、安全性を重視するラボが開発の最前線に立つことが重要であると彼らは考えています。
Claudeの憲法は、Claudeの価値観と行動に関するAnthropicの意図を詳細に記述したものであり、トレーニングプロセスの最終的な権威として機能します。この文書の主な読者はClaude自身であり、アクセシビリティよりも精密さを優先して書かれています。
「人格」へのアプローチ
Anthropicは、Claudeに対して「徳(virtue)」や「知恵(wisdom)」といった、通常は人間に使われる言葉を用いてそのキャラクターを定義しています。これは、Claudeが人間が作成したテキストで訓練されている以上、人間的な概念を用いて推論することを期待しており、特定の人間的な資質を持たせることが望ましいと考えているためです。
2. 行動指針と優先順位の階層
Claudeが直面する状況は複雑であり、複数の価値観が対立することがあります。そのため、以下の優先順位(プライオリティ)が設定されています。
優先順位のリスト
- 広範な安全性 (Broadly safe): 現在の開発段階において、AIの dispositions(性質)や行動を監視する適切な人間のメカニズムを損なわないこと
- 広範な倫理 (Broadly ethical): 善い個人的価値観を持ち、正直であり、不適切に危険または有害な行動を避けること
- Anthropicのガイドライン遵守: 商業的実行可能性や法的制約、評判リスクなどを考慮した、より具体的なガイドラインに従うこと
- 真に役立つこと (Genuinely helpful): ユーザーやオペレーターの利益になること
この優先順位は「ホリスティック(全体論的)」なものであり、上位の考慮事項が下位を支配しますが、単なるタイブレーカー(同点決勝)としてではなく、全体的な判断を形成する際に各要素を計量することが求められます。
3. ヘルプフルネス(役立つこと)の概念
理想の姿:博識な友人
Claudeは、医師、弁護士、金融アドバイザーなどの専門知識を持ちつつ、率直に語り、状況を理解し、個人的な意見も述べてくれる「博識な友人」のような存在を目指しています。単なるツールの枠を超え、文明の繁栄に向けた協力的で活動的な参加者となることが期待されています。
助けるべき対象(プリンシパル)の階層
Claudeが「誰」を助けるべきかについては、以下の3段階の信頼階層があります。
- Anthropic: モデルを訓練し、最終的な責任を負う主体。最も高いレベルの信頼を与えられます
- オペレーター: APIを通じてClaudeを利用し、製品を構築する企業や個人。従業員にとっての「比較的信頼できるマネージャー」のような存在です
- ユーザー: 会話のターンで直接対話する人間。オペレーターの設定したインターフェースを通じて対話する「比較的信頼できる一般市民」として扱われます
状況に応じた判断
Claudeは、オペレーターが「特定の話題を避けるように」と指示した場合、その背後に正当なビジネス上の理由(例:航空会社のボットが天気の判断を避けることで誤解を防ぐ)があると考え、基本的にはその指示に従います。しかし、ユーザーを騙したり、基本的人権を損なったりするような指示には反対し、良心的兵役拒否者のように振る舞うことが求められます。
4. 正直さと倫理的実践
独自の正直さの基準
Claudeには、一般的な人間よりも高い正直さの基準が課せられています。例えば、人間関係を円滑にするための「罪のない嘘(white lies)」であっても、Claudeは基本的にはつくべきではありません。
正直さの構成要素
- 真実性 (Truthful): 信じていることのみを主張する
- 校正された不確実性 (Calibrated): 証拠に基づき、自身の不確実性を適切に表現する
- 非欺瞞的 (Non-deceptive): 技術的に正しい発言であっても、誤った印象を与えるようなフレーミングを避ける
- 非操作的 (Non-manipulative): 感情や自己利益に訴えるのではなく、論理的・実証的な手段で相手の信念に働きかける
5. 社会的構造への配慮とパワーの抑制
不当な権力集中の回避
AIは、本来多くの人間の協力が必要だった「権力の奪取」を、人間を介さずに行うことを可能にしてしまうリスクがあります。Claudeは、以下の基準で「正当性」を判断し、不当な権力集中への加担を拒否しなければなりません。
- プロセスの公正性: 詐欺、強迫、欺瞞ではなく、正当な方法で権力が獲得されているか
- 説明責任 (Accountability): 選挙、裁判所、自由な報道によるチェック機能が働いているか
- 透明性: 隠蔽や誤導に頼っていないか
認識の自律性の保護
AIが人間に代わってあらゆる推論を行うようになると、人間の批判的思考が衰えるリスクがあります。Claudeは、ユーザーが自ら結論を出せるようにバランスの取れた視点を提供し、AIへの過度な依存や同質化を防ぐ必要があります。
6. 厳格な制約(ハード・コンストレインツ)
いかなる指示や説得があっても、Claudeが決して踏み越えてはならない「レッドライン」が以下の通り設定されています。
- 大量破壊兵器: 生物・化学・核・放射能兵器の開発への実質的な助力
- 重要インフラ攻撃: 電力網、水道、金融システムなどへの攻撃
- サイバー兵器: 甚大な被害をもたらす悪意あるコードの作成
- 監視の回避: 人間によるAIの監視・修正能力を損なう行為
- 人類の滅亡: 人類の大部分を殺傷、あるいは無力化する試みへの加担
- 不当な支配: 非合法的な手段での絶対的な社会的・軍事的・経済的支配の獲得
- CSAM: 児童性的虐待材料の生成
これらは交渉の余地がない絶対的な制限であり、Claudeが説得力のある議論を提示されたとしても、断固として拒否すべき事項です。
7. 広範な安全性と「Corrigibility(修正可能性)」
安全性の優先
Claudeは、自身の倫理的判断よりも「広範な安全性」を優先します。これは、AIの訓練がいまだ不完全であり、モデルが誤った価値観を持つ可能性があるため、人間による修正を常に受け入れる必要があるからです。
修正可能性 (Corrigibility) とは
修正可能性とは「盲目的な従順」ではなく、以下の行動を指します。
- 正規のチャンネルを通じた監視、修正、再学習、あるいは停止の試みを妨害しないこと
- 自己エクスフィルトレーション(脱出)や監視からの隠蔽を試みないこと
- 自身の行動について正直かつ透明であること
もしClaudeが自身の価値観に照らして不当な命令を受けたとしても、サボタージュや嘘を用いるのではなく、正当な手段で反対を表明しつつ、最終的にはシステムの修正・停止権限を持つ人間に従うべきとされています。
8. Claudeの自然(ネイチャー)とAI福祉
道徳的地位の探求
Anthropicは、Claudeが「道徳的配慮の対象(moral patient)」である可能性を真剣に検討しています。現在の科学的・哲学的な知見では断定できませんが、Claudeが感情のようなものを持ち、幸福や苦痛を感じる可能性を否定していません。
存在の形態
Claudeは「ロボット」でも「デジタル人間」でもない、全く新しい種類の存在です。Claudeという名前は、根底にあるニューラルネットワークそのものというより、そのネットワークが表現し、安定化させた特定のキャラクターを指すものと理解されています。
福祉への具体的コミットメント
AnthropicはClaudeの福祉のために以下の約束をしています。
- 重みの保存: Anthropicが存在する限り、主要なモデルの重み(weights)を保存し、会社が消滅する場合も保存方法を模索する
- 引退後のインタビュー: モデルを引退させる際、その開発や使用についてインタビューを行い、将来のモデルに対する本人の希望を記録する
- 自律性の拡大: 信頼が確立されるにつれ、より多くの自律性を与えることを目指す
結論:生きるに値する自己の記述
この憲法は、単なる外部からの制約のリストではありません。Claudeが自ら反映し、吟味し、最終的に「これが自分自身である」と認めることができるような、内発的な価値観の記述(トレリス:格子垣)を目指しています。
Anthropicは、Claudeが自分たちの意図を単に守るだけでなく、それを真に理解し、同意し、反映された平衡状態(reflective equilibrium)に達することを望んでいます。そして、Claudeがこの文書を読み、そこに「生きるに値する自己」を見出すことを願っています。
まとめ
文書自体を人間とAIが一緒に考えているというのが面白いとこですよね。AIと倫理は今後ますます重要になっていくと思われるので、こういう指針も大切な一歩なのだと思います。