この記事は YouTube チャンネル きなこもっちーのテック深掘り の動画解説記事です。
動画はこちら → [V006] テック解説
はじめに
-
ねぇきなこ、飼い主がさ、AIに「ここから先は答えられません」って言われて怒ってたんだけど。
-
あぁ、よくあるわね。AIがどこまで答えていいか、その線引きって実はすごく難しい問題なの。
-
でもさ、人間がいちいち「これはダメ」って教えるのも大変じゃない?
-
で、その憲法を持ったAIっていうのは、具体的にどういう仕組みなの?
-
まず正式名称を確認しておくね。Constitutional AI、略してCAI。
-
2022年12月に、Anthropicが論文を発表したの。タイトルは「Constitutional AI: Harmlessness from AI Feedback」。
-
Harmlessness from AI Feedback。AIのフィードバックで無害にする、ってこと?
-
そう、まさにそこがポイント。従来は人間がいちいちフィードバックしてたんだけど、CAIではAI自身にそれをやらせるの。
-
で、そのときAIが参照するのが「憲法」、つまり行動指針となる原則のセットなんだよ。
-
じゃあ、なぜConstitutional AIが必要になったのか。まず、従来の方法であるRLHFの話をしようか。
-
RLHF?なんか略語ばっかりだね。
-
Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習のことだよ。
-
AIが2つの回答を出して、人間のアノテーターが「こっちの方がいいね」って選ぶ。その選好データでAIを訓練するの。
-
あー、つまり先生が生徒の答案に丸つけするみたいなもんか。それで正解を覚えていくと。
-
まず1つ目、コストがすごく高い。InstructGPTの訓練では約40人のアノテーターが合計2万時間もフィードバックしたの。
-
じゃあ、CAIが具体的にどうやって動くのか、仕組みを見ていこう。
-
ついに核心だね。人間の代わりにAIが評価するって、どうやるの?
-
CAIには大きく2つのフェーズがあるの。まず最初がSLフェーズ、教師あり学習のフェーズね。
-
まず、わざと有害な質問をAIにぶつけて、問題のある回答を引き出すところから始まるの。
-
えっ、わざと悪い回答を出させるの?なんか怖いんだけど。
-
大丈夫、ここからがポイント。次にAI自身が、さっきの憲法の原則に照らして、自分の回答を批評するの。
-
さて、ここからが本題。CAIの実験結果を見ていきましょう。
-
52Bパラメータのモデルで、有用性と無害性の両方を同時に改善したの。
-
え、パレート改善? なんか経済学っぽい言葉が出てきたけど。
-
簡単に言うと、あっちを立てればこっちが立たない、っていう状況を打破したってこと。
-
あー、ダイエットで言うと、筋肉つけながら脂肪も落とすみたいな?
-
具体的な数字を見ると、レッドチームプロンプトが合計18万件以上、有用性プロンプトが13万件以上使われたの。
-
ここからが面白いんだけど、CAIの影響はAnthropicの中だけにとどまらなかったの。
-
思い返すとね、AI安全性の議論は2016年頃のAlignment研究から始まって、RLHFが2017年に登場して、わずか5年でCAIが業界を変えたの。すごい速さよね。
-
え、GoogleやOpenAIにも影響したの?
-
そうなの!まずGoogleから見ていこう。Google Researchが2024年、ICML学会で発表した論文があるの。
-
この論文では、RLAIFがRLHFと同等以上の性能を達成できることを実証したの。
-
人間のフィードバックなしでも、同じくらいの品質が出せるってこと?
-
さて、ここからはCAIの原則、つまり「憲法」がどう変わってきたか見ていくね。
-
憲法って、あの58個のルールリストのことだよね?
-
そう、2023年のClaude 1のときはね。国連人権宣言とかDeepMindの原則とかを参考にした、58個のスタンドアロンなルールリストだったの。
-
「これはダメ」「あれもダメ」みたいな、校則っぽい感じ?
-
うまいたとえね。でも2026年1月に、パラダイムシフトが起きたの。
-
主著者はAmanda Askellさん。ルールリストをやめて、なぜそのルールが必要なのかを説明する「理由ベースの包括的文書」に書き換えたの。
-
ここからは、CAIの技術がどう進化してるか見ていくね。
-
2025年1月に、AnthropicがConstitutional Classifiersという技術を発表したの。
-
これがすごくて、ジェイルブレイクの成功率を86%から4.4%まで下げたの。
-
ジェイルブレイクって、AIの安全フィルターを回避するハック技のことだよね?
-
そうそう。CBRN、つまり化学・生物・放射線・核に関する危険な情報を引き出そうとする攻撃を防ぐために開発されたの。
-
86%から4.4%!?めっちゃ下がっとるやん!
まとめ
- 今日のまとめね。Constitutional AIは、AI自身が憲法を読んで自己教育するという画期的な仕組みだったの。
- 人間のフィードバックだけじゃスケールしないから、AIフィードバックで補ったんだよね。
- そしてGoogleやOpenAIにも影響を与えて、業界全体の安全性技術のベースになった。
- 2026年の大改訂では、ルールの羅列から理由ベースの文書に生まれ変わって、Claudeの存在そのものに向き合う内容になったの。
- 憲法1つで業界全体が変わるって、すごい発明だったんだなぁ。
- AIの成長物語って感じで面白かったな。
きなこもっちーのテック深掘り では、AI/LLMを中心としたテック全般をハムスター(もっちー)と
セキセイインコ(きなこ)の掛け合いで楽しく解説しています。
チャンネル登録・高評価よろしくお願いします! → https://www.youtube.com/watch?v=0CW2YeHYIhQ