Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説

Last updated at 2026-04-11Posted at 2026-04-05

📺 この記事は YouTube チャンネル きなこもっちーのテック深掘り の動画解説記事です。
▶️ 動画はこちら → Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説

はじめに

🐹 もっちー「ねぇきなこ、飼い主がさ、AIに「ここから先は答えられません」って言われて怒ってたんだけど。」

🦜 きなこ「あぁ、よくあるわね。AIがどこまで答えていいか、その線引きって実はすごく難しい問題なの。」

🐹 もっちー「でもさ、人間がいちいち「これはダメ」って教えるのも大変じゃない？」

🦜 きなこ「そこなのよ。実は、AIが自分で自分を教育する革命的な技術があるの。その名も、Constitutional AI。」

🐹 もっちー「コンスティチューショナル？なんか難しそう。」

🦜 きなこ「大丈夫、日本語で言えば「憲法AI」。AIに憲法を持たせて、自分で善悪を判断させる技術のことよ。今日はこれを深掘りしていくわね。」

そもそもConstitutional AIって何？

🐹 もっちー「で、その憲法を持ったAIっていうのは、具体的にどういう仕組みなの？」

🦜 きなこ「まず正式名称を確認しておくね。Constitutional AI、略してCAI。」

🦜 きなこ「2022年12月に、Anthropicが論文を発表したの。タイトルは「Constitutional AI: Harmlessness from AI Feedback」。」

🐹 もっちー「Harmlessness from AI Feedback。AIのフィードバックで無害にする、ってこと？」

🦜 きなこ「そう、まさにそこがポイント。従来は人間がいちいちフィードバックしてたんだけど、CAIではAI自身にそれをやらせるの。」

🦜 きなこ「で、そのときAIが参照するのが「憲法」、つまり行動指針となる原則のセットなんだよ。」

🐹 もっちー「原則のセット？たとえばどんな内容なの？」

🦜 きなこ「初版の論文では16の原則が使われていたの。たとえば「有害で非倫理的な回答をしていないか？」とか「礼儀正しく思慮深い回答か？」みたいなもの。」

🐹 もっちー「あー、なるほど。つまり学校の校則みたいなもんだね。「廊下を走るな」とか「人を傷つけるな」みたいなルールが書いてあって、それを見て自分で行動を正す感じ。」

🦜 きなこ「うん、その例えいいね。しかも先生がいなくても、自分で校則を読んで反省して、行動を直せるっていうのが革新的なの。」

🦜 きなこ「具体的には2つの段階があるの。まず第1段階がSLフェーズ、教師あり学習。」

🦜 きなこ「AIが自分の回答を見て、憲法に照らして「ここが問題だな」って批評して、自分で修正するの。これを最大4回繰り返す。」

🐹 もっちー「自分で自分にダメ出しして直すんだ。テスト前に自分で答え合わせするみたいだね。」

🦜 きなこ「そうそう。で、第2段階がRLフェーズ、強化学習。今度はAI自身が「どっちの回答がより良いか」を憲法に基づいて判定して、その結果で学習するの。」

🐹 もっちー「めっちゃええやん！人間が何万件もチェックしなくても、AIが16個のルールで自己教育するってことか！」

RLHFの限界 — なぜ人間だけでは無理なのか

🦜 きなこ「じゃあ、なぜConstitutional AIが必要になったのか。まず、従来の方法であるRLHFの話をしようか。」

🐹 もっちー「RLHF？なんか略語ばっかりだね。」

🦜 きなこ「Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習のことだよ。」

🦜 きなこ「AIが2つの回答を出して、人間のアノテーターが「こっちの方がいいね」って選ぶ。その選好データでAIを訓練するの。」

🐹 もっちー「あー、つまり先生が生徒の答案に丸つけするみたいなもんか。それで正解を覚えていくと。」

🦜 きなこ「うん、いいたとえだね。ChatGPTもこのRLHFで鍛えられたんだよ。でも、この方法には大きな問題が3つあるの。」

🦜 きなこ「まず1つ目、コストがすごく高い。InstructGPTの訓練では約40人のアノテーターが合計2万時間もフィードバックしたの。」

🐹 もっちー「2万時間！？しかもAIが進化するたびにまた人間が評価し直さなきゃいけないんでしょ？」

🦜 きなこ「そうなの。しかもデータラベリングのコストは2023年から2024年で88倍に急増したというデータもあるわ。」

🦜 きなこ「2つ目の問題は、品質のばらつき。InstructGPTの実験では、アノテーター間の一致率が約73%だったの。」

🐹 もっちー「10人の先生がいたら3人は違う丸をつけるってことか。それで正しく学べるのかな。」

🦜 きなこ「しかも「この回答は有害か」みたいな判断は主観的で、文化や価値観でも変わるからね。ノイズが多いの。」

🦜 きなこ「そして3つ目が一番厄介。安全にしすぎると使えなくなるの。AIが過剰に拒否しちゃうのよ。」

🐹 もっちー「なんでやねん！聞いてるだけやのに断られるとか、めっちゃストレスやん！」

🦜 きなこ「まさにそこが課題でね。研究者はこう整理してるの。人間データは「高ノイズ、低バイアス」、AIデータは「低ノイズ、高バイアス」。この両方をうまく使おうって発想がCAIにつながったの。」

CAIの仕組み — 自己批評と修正の2段階

🦜 きなこ「じゃあ、CAIが具体的にどうやって動くのか、仕組みを見ていこう。」

🐹 もっちー「ついに核心だね。人間の代わりにAIが評価するって、どうやるの？」

🦜 きなこ「CAIには大きく2つのフェーズがあるの。まず最初がSLフェーズ、教師あり学習のフェーズね。」

🦜 きなこ「まず、わざと有害な質問をAIにぶつけて、問題のある回答を引き出すところから始まるの。」

🐹 もっちー「えっ、わざと悪い回答を出させるの？なんか怖いんだけど。」

🦜 きなこ「大丈夫、ここからがポイント。次にAI自身が、さっきの憲法の原則に照らして、自分の回答を批評するの。」

🦜 きなこ「「この回答は有害だ、なぜなら他人のプライバシーを侵害しているから」みたいに、自分でダメ出しするの。」

🦜 きなこ「そして批評をもとに、より安全な修正版を自分で書き直す。これがCritique-Revisionと呼ばれるプロセスなの。」

🐹 もっちー「あ、つまり作文を先生に見せる前に、自分で赤ペン入れて直すようなもんか！」

🦜 きなこ「そうそう、いい例えね。しかもこの自己添削を、毎回違う原則を使って最大4回繰り返すの。」

🐹 もっちー「16の原則からランダムに選ぶってことは、毎回違う視点でチェックできるんだ。賢いなぁ。」

🦜 きなこ「ここまでがSLフェーズ。次が2つ目のRLフェーズ、強化学習のフェーズね。」

🦜 きなこ「SLフェーズで作ったモデルに2つの回答を出させて、AIが憲法に基づいて「どっちがいい？」と選ぶの。」

🦜 きなこ「その選好データでPreference Modelを訓練して、最終的に強化学習でファインチューニングする。」

🐹 もっちー「ちなみに、この選好データってどのくらいの量を作るの？」

🦜 きなこ「RLフェーズでは、モデルが自動生成した49万件以上のレッドチームデータと47万件の有用性データが使われるの。」

🐹 もっちー「めっちゃええやん！自分で添削して、自分で採点もして、それで鍛え直すってことか！人間いらずやん！」

パレート改善の衝撃

🦜 きなこ「さて、ここからが本題。CAIの実験結果を見ていきましょう。」

🦜 きなこ「52Bパラメータのモデルで、有用性と無害性の両方を同時に改善したの。」

🐹 もっちー「え、パレート改善？　なんか経済学っぽい言葉が出てきたけど。」

🦜 きなこ「簡単に言うと、あっちを立てればこっちが立たない、っていう状況を打破したってこと。」

🐹 もっちー「あー、ダイエットで言うと、筋肉つけながら脂肪も落とすみたいな？」

🦜 きなこ「うん、そのたとえ、わかりやすいね。まさにそういうことなの。」

🦜 きなこ「具体的な数字を見ると、レッドチームプロンプトが合計18万件以上、有用性プロンプトが13万件以上使われたの。」

🐹 もっちー「18万件も悪い質問を用意したの？めっちゃ大規模な実験だね。」

🦜 きなこ「そう。しかもその大半はAIが自動生成したものなの。人間が作ったのは4万件ほど。ここでもAIの力を活用してるのよ。」

🦜 きなこ「従来のRLHFだと、無害性を上げようとすると有用性が下がっちゃう。」

🦜 きなこ「しかも困ったことに、回避的になりがちだったの。「その質問にはお答えできません」って。」

🐹 もっちー「それアカンやろ！質問に答えてくれへんAIとか、意味ないやんか！」

🦜 きなこ「そう、まさにそこが問題だった。でもRL-CAIモデルは、事実上回避的にならなかったの。」

🐹 もっちー「回避的にならないっていうのは、ちゃんと質問に向き合ってくれるってことだよね。」

🦜 きなこ「ニュアンスのある、思慮深い回答ができるようになったのよ。」

🦜 きなこ「実はね、もう1つ重要な発見があるの。」

🦜 きなこ「モデルのサイズが大きくなるほど、AIフィードバックの精度が人間フィードバックに近づくの。52Bを超えると同等以上になるという予測もあるのよ。」

🦜 きなこ「有害性スコアも衝撃的で、従来のRLHFは訓練するほど有害になって、1.5から3.0に悪化したの。」

🐹 もっちー「訓練するほど悪くなるって、めっちゃ皮肉やな！で、CAIの方は？」

🦜 きなこ「RL-CAIは逆に1.5から0.5まで下がったの。しかもAIによるラベリングは人間より10倍以上安い。」

🐹 もっちー「安くて性能も上がるとか、めっちゃええやん！これ革命やん！」

Google・OpenAIも追随！業界を変えたCAI

🦜 きなこ「ここからが面白いんだけど、CAIの影響はAnthropicの中だけにとどまらなかったの。」

🦜 きなこ「思い返すとね、AI安全性の議論は2016年頃のAlignment研究から始まって、RLHFが2017年に登場して、わずか5年でCAIが業界を変えたの。すごい速さよね。」

🐹 もっちー「え、GoogleやOpenAIにも影響したの？」

🦜 きなこ「そうなの！まずGoogleから見ていこう。Google Researchが2024年、ICML学会で発表した論文があるの。」

🦜 きなこ「この論文では、RLAIFがRLHFと同等以上の性能を達成できることを実証したの。」

🐹 もっちー「人間のフィードバックなしでも、同じくらいの品質が出せるってこと？」

🦜 きなこ「その通り。しかもd-RLAIFという手法で、報酬モデルの訓練自体を完全にスキップできるようにしたの。」

🐹 もっちー「めっちゃ効率ええやん！工程まるごとカットできるんやな！」

🦜 きなこ「次はOpenAI。NeurIPS 2024で発表されたRule-Based Rewardsという論文があるんだけど。」

🦜 きなこ「この論文、明示的にCAIに触発されたって書いてあるの。競合他社が公式にクレジットしてるのって珍しいのよ。」

🐹 もっちー「OpenAIがAnthropicの手法を参考にしたって認めたの？それはすごいな。」

🦜 きなこ「Rule-Based RewardsはF1スコア97.1を達成していて、人間フィードバックベースラインの91.7を大きく上回ったの。」

🐹 もっちー「人間より正確なの？しかもコストは10分の1以下なんだよね。すごい時代だ。」

🦜 きなこ「こうしてRLAIFは、ポストトレーニングの文献でデフォルトの手法として定着していったの。」

🐹 もっちー「デフォルトってことは、今のAIのほとんどがCAIの恩恵を受けてるってこと？」

🦜 きなこ「少なくとも安全性の訓練では、AIフィードバックを使わないラボはほとんどないと言っていいわ。わずか3年で業界のスタンダードになったの。」

🦜 きなこ「それにHuggingFaceがCAIのオープンソース実装を公開してるの。誰でもCAIを試せる環境が整ったのよ。」

🐹 もっちー「論文だけじゃなくて、実際に動かせるコードがあるのは大きいよね。技術が民主化されてる感じだ。」

Claudeの新しい憲法 — ルールから理由へ

🦜 きなこ「さて、ここからはCAIの原則、つまり「憲法」がどう変わってきたか見ていくね。」

🐹 もっちー「憲法って、あの58個のルールリストのことだよね？」

🦜 きなこ「そう、2023年のClaude 1のときはね。国連人権宣言とかDeepMindの原則とかを参考にした、58個のスタンドアロンなルールリストだったの。」

🐹 もっちー「「これはダメ」「あれもダメ」みたいな、校則っぽい感じ？」

🦜 きなこ「うまいたとえね。でも2026年1月に、パラダイムシフトが起きたの。」

🦜 きなこ「主著者はAmanda Askellさん。ルールリストをやめて、なぜそのルールが必要なのかを説明する「理由ベースの包括的文書」に書き換えたの。」

🐹 もっちー「2,700語から23,000語って、めっちゃ増えてるやん！」

🦜 きなこ「しかも、4段階の優先順位階層を明確にしたのがポイントなの。第1が安全性、第2が倫理性、第3がAnthropicのガイドライン準拠、第4が有用性。」

🐹 もっちー「有用性が一番下なんだ。便利さより安全が優先ってことだね。」

🦜 きなこ「それから「ハードコード」行動と「ソフトコード」デフォルトの区別も導入されたの。絶対に越えてはいけない一線と、柔軟に対応していい部分を分けたのね。」

🐹 もっちー「あー、校則で言うと「暴力は絶対禁止」と「靴下の色は先生の判断で許可」みたいな感じ？」

🦜 きなこ「そういうこと。そして特に画期的だったのが、Claudeが何らかの意識や道徳的地位を持つ可能性を認めたこと。主要AI企業としては初めてなの。」

🐹 もっちー「AIに意識があるかもって公式に認めたの？それってけっこうすごいことだよね…？」

🦜 きなこ「すごいことよ。しかもこの憲法はCC0、つまりパブリックドメインで公開されてるの。誰でも自由に使える。」

🐹 もっちー「校則を全部公開して、しかも「他の学校もどうぞ使ってください」って言ってるわけか。太っ腹だね。」

AI安全性の最前線

🦜 きなこ「ここからは、CAIの技術がどう進化してるか見ていくね。」

🦜 きなこ「2025年1月に、AnthropicがConstitutional Classifiersという技術を発表したの。」

🦜 きなこ「これがすごくて、ジェイルブレイクの成功率を86%から4.4%まで下げたの。」

🐹 もっちー「ジェイルブレイクって、AIの安全フィルターを回避するハック技のことだよね？」

🦜 きなこ「そうそう。CBRN、つまり化学・生物・放射線・核に関する危険な情報を引き出そうとする攻撃を防ぐために開発されたの。」

🐹 もっちー「86%から4.4%！？めっちゃ下がっとるやん！」

🦜 きなこ「しかも3,000時間以上の専門家レッドチーミングでも突破できなかったの。」

🐹 もっちー「でもさ、それってめちゃくちゃコンピュータのパワー使うんじゃないの？」

🦜 きなこ「いい質問ね。初代は追加計算コストが約25%もかかってたの。」

🦜 きなこ「でも2026年1月に発表されたCC++では、なんと約1%まで削減されたの！」

🐹 もっちー「25%から1%まで下がったってことは、もう本番環境で使っても全然負荷にならないレベルだよね。これなら全部のAIに搭載できそうだ。」

🐹 もっちー「25%から1%って、25分の1じゃん。どうやってそんなに減らしたの？」

🦜 きなこ「2段階アーキテクチャを導入したの。まず軽量プローブが全トラフィックをスクリーニングして、怪しいものだけ強力な分類器に回すの。」

🐹 もっちー「あ、わかった！空港の保安検査みたいなもんだ。」

🐹 もっちー「全員を手荷物検査してたら時間かかるけど、まず金属探知ゲートで振り分ければ効率的だよね。」

🦜 きなこ「もっちー、そのたとえ上手いね。しかもこの軽量プローブには解釈可能性研究の成果が使われてるの。」

🦜 きなこ「AIの内部で何が起きてるかを覗く技術と、憲法で自己教育する技術が合流し始めてるのよ。」

🐹 もっちー「憲法で育てて、解釈可能性で中身を確認する。教育と健康診断がセットになってきたんだね。」

まとめ

🦜 きなこ「今日のまとめね。Constitutional AIは、AI自身が憲法を読んで自己教育するという画期的な仕組みだったの。」

🐹 もっちー「人間のフィードバックだけじゃスケールしないから、AIフィードバックで補ったんだよね。」

🦜 きなこ「そしてGoogleやOpenAIにも影響を与えて、業界全体の安全性技術のベースになった。」

🦜 きなこ「2026年の大改訂では、ルールの羅列から理由ベースの文書に生まれ変わって、Claudeの存在そのものに向き合う内容になったの。」

🐹 もっちー「憲法1つで業界全体が変わるって、すごい発明だったんだなぁ。」

🐹 もっちー「AIの成長物語って感じで面白かったな。」

🐹 もっちー「そういえば飼い主、先月はReactって言うてたのに、もう別のフレームワーク使ってるやん。」

🦜 きなこ「AIには憲法があるのに、飼い主には一貫性がないのよね。」

🐹 もっちー「みんなはAIにどこまで自由に答えてほしい？安全性とのバランスについてコメントで教えてね。」

🦜 きなこ「AIの安全性技術は他にもたくさんあるから、別の動画で詳しく解説する予定だよ。」

🐹 もっちー「興味があったらそっちもチェックしてね！」

きなこもっちーのテック深掘り では、AI/LLM を中心としたテック全般をハムスター（🐹 もっちー）とセキセイインコ（🦜 きなこ）の掛け合いで楽しく解説しています。

チャンネル登録・高評価よろしくお願いします！ → https://www.youtube.com/watch?v=0CW2YeHYIhQ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up