Claude 3.5 Sonnetとは何者なのか

Last updated at 2024-06-20Posted at 2024-06-20

初めに

こんばんは
Akira_0809です、
ぼんやりと過ごしていたらAnthropicが発表していたので寝ないで書きます、

時間が無い人向け

Claude 3 Opusと競合モデルを幅広い評価で凌駕し、Opusよりも2倍速く、ビジョン機能でも大幅に進化したモデル

また、Artifactsという機能が追加された
コードスニペット、テキストドキュメント、ウェブサイトデザインなどのコンテンツを表示するウィンドウ

今年の後半にOpusとHaikuの3.5が出る予定

評価

テキスト

上から

GPQA （大学院レベルの推論能力）
MMLU （学部レベルの知識）
HumanEval （Pythonコーディングタスク）
MGSM （多言語数学問題解決）
DROP （テキストの推論）
BIG-Bench-Hard （複雑な推論タスク）
MATH （数学的問題解決）
GSM8K （小学校レベルの数学）

GPQAにおいては5-shot CoT GPQA maj@32において67.2%のスコアを記録しています。

maj@32は32の結果を集計して最終評価を行ってます

MMLUにおいては5-shotでの評価でGPT-4oに並んでいます

MATHにおいてはGPT-4oに敗北しています

ビジョン

上から

Math Vista （視覚的数学推論）
AI2D （科学図の理解）
MMMU （視覚的質問応答）
Relaxed accuracy （チャートに関する質問応答）
ANLS （文書の質問応答）

MMMUの評価は僅差でGPT-4oの勝利となっています

コスト

Claude.aiとiOSアプリで無料で利用できます（割と制限早いかも）
課金していると高いレート制限になります

API

Anthropic API
Amazon Bedrock
Google Cloud Vertex AI

Bedrockはなんかエラー出たけど、、

値段

Claude 3 Sonnetと同じ値段ですね

入力トークン	出力トークン
100万個	100万個
$3	$15

安全とプライバシー

レッドチームによる評価ではASL-2となっています

ASL-2とは現在のClaudeモデルと同じ
詳しく知りたい方は下を読んでね

ASL-1 refers to systems which pose no meaningful catastrophic risk, for example a 2018 LLM or an AI system that only plays chess.

ASL-2 refers to systems that show early signs of dangerous capabilities – for example ability to give instructions on how to build bioweapons – but where the information is not yet useful due to insufficient reliability or not providing information that e.g. a search engine couldn’t. Current LLMs, including Claude, appear to be ASL-2.

ASL-3 refers to systems that substantially increase the risk of catastrophic misuse compared to non-AI baselines (e.g. search engines or textbooks) OR that show low-level autonomous capabilities.

ASL-4 and higher (ASL-5+) is not yet defined as it is too far from present systems, but will likely involve qualitative escalations in catastrophic misuse potential and autonomy.

また、外部の専門家であるイギリスの人工知能安全研究所(UKAISI)での評価もされています

Artfacts

少し本題とはずれますが今回追加された新機能です

コードスニペット、テキストドキュメント、ウェブサイトデザインなどのコンテストを提供するウィンドウです
リアルタイムでの表示によりClaudeの生成物を確認、編集、構築することが出来ます

オンにするには

右上の自分のアイコンをクリック
Feature Previewをクリック
オンにする

他のモデルについて

Claude 3 OpusとClaude 3 Haikuについては今年の後半にリリース予定です
また、ChatGPTのメモリー機能のようなものも開発しているようです

最後に

同じ値段で使えるのヤバ過ぎOpusの存在価値が消えた、、
OpusとHaikuも楽しみです！
GPT-5も早く出ないかなー

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up