Anthropic創設まで
2016年からOpenAI社でAI研究を率いていたDario Amodei氏は、数関数的に拡大するAIの知性や能力を目の当たりにしながらも、責任あるスケーリングのアプローチ、すなわちシステムとシステムを構築する人々の両方に信頼を生み出すことを優先するアプローチがなければ、AIは世界を前向きに変えるための潜在能力を完全に発揮することはできないと感じていた1。
また、2019年のMicrosoft社からOpenAI社への巨額投資で、AIの安全性よりも過度に商業化され、システムの制御が困難になり犯罪目的など危険な用途へも利用さる懸念が強まったこともあり、2020年にDario Amodei氏、Daniela Amodei氏をはじめ5名がOpenAIを去った23。
そして、2021年にOpenAIで自分のビジョンのために戦うのではなく、合計7名のOpenAI元従業員で責任あるAIの使用を企業理念としたAnthropicという会社を設立した(当初、AI Safety Labという名前だったが変更された24)1。
Anthropic創設後
当初はサードパーティの既存AIモデルのセキュリティテストに重点を置く予定だったが、AIシステムの安全性を真に確保するには、強力なニューラルネットワークをゼロから作成する必要があると早々に方向転換した4。
Anthropicは2021年5月に1億2400万ドル、2022年4月に5億8000万ドルを調達し急速に成長を遂げる中56、2022年夏に独自の言語モデルであるClaude(数学者Claude Shannonより4)の初版を学習完了していたが、安全性テストの面などから公開は避けられた7。
Anthropicは、ニューラルネットワークをリバースエンジニアリングしてニューロン間に意味のあるアルゴリズムを見出すDistill Circuitという実験的なプロジェクト8に触発され、2021年12月にTransformer CircuitsというTransformerのLLMをリバースエンジニアリングして理解するプロジェクトを立ち上げており9、Anthropicの言語モデルはTransformerをベースにしていると考えられる。
2022年12月にConstitutional AI(CAI、憲法AI)というコンセプトを発表した1011。
ChatGPTなども適用している無害なAIシステムのための一般的なアプローチは、教師ありファインチューニング(SFT: Supervised Fine-Tuning)と人間のフィードバックを用いた強化学習(RLHF: Reinforcement Learning from Human Feedback)だったが、人間が注釈(アノテーション)を付けたデータを収集するには時間がかかるという問題があった。CAIはデータ生成プロセスを自動化してAIシステムをより効率的にトレーニングする下記のアプローチにより改善するものである11。
- 学習目標のエンコード化
- Chain-of-ThoughtによるAI意思決定の明示化
- 有害な要求に応じない理由を説明するAIアシスタントの学習
CAIのモチベーション
- AIによるAI監視を行い効率的にAIシステムを高度化する
- 「わからない」等の回避的で無益な応答と、無害かつ有益なの応答のバランスをとる
- 学習ラベルを簡単な指示・原理(principle)にし、公開することで、単純化・透明性を向上する
Anthropic’s constitutional AI approach to training models.
Image Credits:
Anthropic
続きはこちら
-
Anthropic CEO Dario Amodei Says He Left OpenAI Over a Difference in ‘Vision’ ↩ ↩2
-
Anthropic PBC: History, Development, Products, and Prospects ↩ ↩2
-
Anthropic: What We Know About the Company Behind Claude AI ↩
-
Anthropic Company Profile: Why we love Claude 3 + VC Due Diligence - AI&YOU#49 ↩ ↩2 ↩3
-
Anthropic raises $124 million to build more reliable, general AI systems ↩
-
Anthropic Raises Series B to Build Steerable, Interpretable, Robust AI Systems ↩
-
Anthropic launches Claude, a chatbot to rival OpenAI’s ChatGPT ↩