Anthropic（1. 2019~2022年ごろ：Anthropic創設、Claudeリリース前）

Last updated at 2025-03-09Posted at 2025-03-05

Anthropic創設まで

2016年からOpenAI社でAI研究を率いていたDario Amodei氏は、数関数的に拡大するAIの知性や能力を目の当たりにしながらも、責任あるスケーリングのアプローチ、すなわちシステムとシステムを構築する人々の両方に信頼を生み出すことを優先するアプローチがなければ、AIは世界を前向きに変えるための潜在能力を完全に発揮することはできないと感じていた¹。
また、2019年のMicrosoft社からOpenAI社への巨額投資で、AIの安全性よりも過度に商業化され、システムの制御が困難になり犯罪目的など危険な用途へも利用さる懸念が強まったこともあり、2020年にDario Amodei氏、Daniela Amodei氏をはじめ5名がOpenAIを去った²³。
そして、2021年にOpenAIで自分のビジョンのために戦うのではなく、合計7名のOpenAI元従業員で責任あるAIの使用を企業理念としたAnthropicという会社を設立した（当初、AI Safety Labという名前だったが変更された²⁴）¹。

Photograph by Ian Allen for TIME

Anthropic創設後

当初はサードパーティの既存AIモデルのセキュリティテストに重点を置く予定だったが、AIシステムの安全性を真に確保するには、強力なニューラルネットワークをゼロから作成する必要があると早々に方向転換した⁴。
Anthropicは2021年5月に1億2400万ドル、2022年4月に5億8000万ドルを調達し急速に成長を遂げる中⁵⁶、2022年夏に独自の言語モデルであるClaude（数学者Claude Shannonより⁴）の初版を学習完了していたが、安全性テストの面などから公開は避けられた⁷。
Anthropicは、ニューラルネットワークをリバースエンジニアリングしてニューロン間に意味のあるアルゴリズムを見出すDistill Circuitという実験的なプロジェクト⁸に触発され、2021年12月にTransformer CircuitsというTransformerのLLMをリバースエンジニアリングして理解するプロジェクトを立ち上げており⁹、Anthropicの言語モデルはTransformerをベースにしていると考えられる。

2022年12月にConstitutional AI（CAI、憲法AI）というコンセプトを発表した¹⁰¹¹。
ChatGPTなども適用している無害なAIシステムのための一般的なアプローチは、教師ありファインチューニング（SFT: Supervised Fine-Tuning）と人間のフィードバックを用いた強化学習（RLHF: Reinforcement Learning from Human Feedback）だったが、人間が注釈（アノテーション）を付けたデータを収集するには時間がかかるという問題があった。CAIはデータ生成プロセスを自動化してAIシステムをより効率的にトレーニングする下記のアプローチにより改善するものである¹¹。

学習目標のエンコード化
Chain-of-ThoughtによるAI意思決定の明示化
有害な要求に応じない理由を説明するAIアシスタントの学習

CAIのモチベーション

AIによるAI監視を行い効率的にAIシステムを高度化する
「わからない」等の回避的で無益な応答と、無害かつ有益なの応答のバランスをとる
学習ラベルを簡単な指示・原理（principle）にし、公開することで、単純化・透明性を向上する

Workflow of the Constitutional AI method

Anthropic’s constitutional AI approach to training models.
Image Credits:
Anthropic

続きはこちら

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up