初めに
こんばんは
Akira_0809です、
ぼんやりと過ごしていたらAnthropicが発表していたので寝ないで書きます、
時間が無い人向け
Claude 3 Opusと競合モデルを幅広い評価で凌駕し、Opusよりも2倍速く、ビジョン機能でも大幅に進化したモデル
また、Artifacts
という機能が追加された
コードスニペット、テキストドキュメント、ウェブサイトデザインなどのコンテンツを表示するウィンドウ
今年の後半にOpusとHaikuの3.5が出る予定
評価
テキスト
- GPQA (大学院レベルの推論能力)
- MMLU (学部レベルの知識)
- HumanEval (Pythonコーディングタスク)
- MGSM (多言語数学問題解決)
- DROP (テキストの推論)
- BIG-Bench-Hard (複雑な推論タスク)
- MATH (数学的問題解決)
- GSM8K (小学校レベルの数学)
GPQAにおいては5-shot CoT GPQA maj@32
において67.2%
のスコアを記録しています。
maj@32
は32の結果を集計して最終評価を行ってます
MMLUにおいては5-shot
での評価でGPT-4oに並んでいます
MATHにおいてはGPT-4oに敗北しています
ビジョン
- Math Vista (視覚的数学推論)
- AI2D (科学図の理解)
- MMMU (視覚的質問応答)
- Relaxed accuracy (チャートに関する質問応答)
- ANLS (文書の質問応答)
MMMUの評価は僅差でGPT-4oの勝利となっています
コスト
Claude.aiとiOSアプリで無料で利用できます(割と制限早いかも)
課金していると高いレート制限になります
API
- Anthropic API
- Amazon Bedrock
- Google Cloud Vertex AI
Bedrockはなんかエラー出たけど、、
値段
Claude 3 Sonnetと同じ値段ですね
入力トークン | 出力トークン |
---|---|
100万個 | 100万個 |
$3 | $15 |
安全とプライバシー
レッドチームによる評価ではASL-2
となっています
ASL-2
とは現在のClaudeモデルと同じ
詳しく知りたい方は下を読んでね
- ASL-1 refers to systems which pose no meaningful catastrophic risk, for example a 2018 LLM or an AI system that only plays chess.
- ASL-2 refers to systems that show early signs of dangerous capabilities – for example ability to give instructions on how to build bioweapons – but where the information is not yet useful due to insufficient reliability or not providing information that e.g. a search engine couldn’t. Current LLMs, including Claude, appear to be ASL-2.
- ASL-3 refers to systems that substantially increase the risk of catastrophic misuse compared to non-AI baselines (e.g. search engines or textbooks) OR that show low-level autonomous capabilities.
- ASL-4 and higher (ASL-5+) is not yet defined as it is too far from present systems, but will likely involve qualitative escalations in catastrophic misuse potential and autonomy.
また、外部の専門家であるイギリスの人工知能安全研究所(UKAISI)での評価もされています
Artfacts
少し本題とはずれますが今回追加された新機能です
コードスニペット、テキストドキュメント、ウェブサイトデザインなどのコンテストを提供するウィンドウです
リアルタイムでの表示によりClaudeの生成物を確認、編集、構築することが出来ます
オンにするには
- 右上の自分のアイコンをクリック
- Feature Previewをクリック
- オンにする
他のモデルについて
Claude 3 OpusとClaude 3 Haikuについては今年の後半にリリース予定です
また、ChatGPTのメモリー機能のようなものも開発しているようです
最後に
同じ値段で使えるのヤバ過ぎOpusの存在価値が消えた、、
OpusとHaikuも楽しみです!
GPT-5も早く出ないかなー