7
5

新機能ArtifactsによりAIとの共同開発感が増したClaude 3.5 Sonnetがリリース!

Last updated at Posted at 2024-06-21

Claude 3.5 Sonnetとは

Anthropicは、マルチモーダル機能を備えた生成AIモデル「Claude 3」シリーズを展開しています。このシリーズには推論能力に優れた「Claude 3 Opus」、処理速度とコスト効率を重視した「Claude 3 Haiku」、そしてその両者のバランスを取った「Claude 3 Sonnet」の3種類があり、今回リリースされたのは「Claude 3 Sonnet」の最新版にあたります。

Claude 3シリーズが発表された2024年3月から、たったの約3ヶ月で新モデルが登場したかたちになります。

気になる性能

  • インテリジェンスの向上
    • 以下のベンチマークで上位モデルであった「Claude 3 Opus」、他社のモデルではOpenAIの「GPT4-o」やGoogleの「Gemini 1.5 Pro」などを殆ど超える性能を叩き出しています!
  • 速度の向上
    • Claude 3 Opusを超えるインテリジェンスを持ちながら、Claude 3 Opusの2倍の速度を実現
  • 表現力や理解力の向上
    • ニュアンスやユーモア、複雑な指示を理解、自然な口調で高品質コンテンツを出力
  • コストパフォーマンス
    • これまで同様の入力100万トークンあたり3ドル、出力100万トークンあたり15ドル
    • コンテキストウィンドウも変わらず20万トークン

image.png

Benchmark 概要
Graduate level reasoning (GPQA, Diamond) 大学院レベルの問題解決と定量分析能力を測定
Undergraduate level knowledge (MMLU) 学部レベルの知識を評価を測定
Code (HumanEval) プログラミング能力を評価を測定
Multilingual math (MGSM) 多言語での基礎的な数学問題解決能力を測定
Reasoning over text (DROP, F1 score) テキストに基づく推論能力を測定
Mixed evaluations (BIG-Bench-Hard) 難度の高い多様なタスクによる総合的な能力を測定
Math problem-solving (MATH) 高度な数学問題解決能力を測定
Grade school math (GSM8K) 小学校レベルの数学問題解決能力を測定

マルチモーダルによる画像認識

以下のベンチマークでClaude 3 OpusやGemini 1.5 Proを、「Visual question answering」のスコアを除いてGPT-4oを上回る結果を示しています。

image.png

ベンチマーク 概要
Visual math reasoning 数学的な問題を視覚的に表現したものを理解し、解決する能力を測定
Science diagrams 科学的な図表や図解を理解し、解釈する能力を測定
Visual question answering 画像に基づいて質問に答える能力を測定
Chart Q&A チャートやグラフに関する質問に答える能力を測定
Document visual Q&A 書や画像を含む複合的な視覚情報を理解し、それに関する質問に答える能力を測定

また、不完全な画像からテキストを正確に書き起こす能力も向上しているらしく、これまでもClaude3などでOCRらいくなタスクを実行させるケースがありましたが、ますます手放せなくなりそうです。

Claude 3.5 Sonnetの立ち位置とその他のモデル

Claude 3.5 Sonnetが先んじて頭ひとつ抜けましたが、OpusやHaikuモデルも今年後半にリリース予定とのことです。

claude-3-5-sonnet-family.png

新機能!Artifacts

ユーザーがコードスニペットやテキストドキュメント、Webサイトデザイン、ゲームなどのコンテンツ生成をClaudeに指示すると、画面右側に専用のウィンドウがシュッと現れて出力状況をリアルタイムで確認でき、そのまま操作することができる画期的な機能です!

例:Artifactsでゲームを作らせて動かしてみた

これまでもチャットで自然言語を入力してWebサイトデザインや実際に動くゲーム用のコードを出力することは出来ていましたが、今回発表されたArtifactのいいところは、出来上がった成果物を右ウィンドウで確認しながら更に調整したりできる体験にあると実際に試してみて感じました。

また、出力結果はバージョニングされており、それぞれ見比べることができるのもポイントが高いです!

Artifactsを試してみた&バージョン変更

一度適当なサイトを生成させて背景色を変更させた例ですが、Version1とVersion2それぞれ記録されており、切り替えることができます。変更を加える度に新しいVersionとして生成され、保持されるのはかなり嬉しいのではないでしょうか。

Amazon Bedrock

Claude 3.5 Sonnetのリリースが発表された後少ししてAWSのBedrockでも早速バージニア北部でモデルアクセスが可能になりました!※Artifactsはclaude.ai上の機能っぽいのかBecrock側には現時点では言及はなかったです。

また、Bedrockでの料金も確認したところClaude 3 Sonnetと変更はありませんでした。
スクリーンショット 2024-06-21 10.44.04.png

Bedrockで出力比較

プロンプト

AWSについて解説して

Claude 3 Sonnet出力結果(バージニア北部)

AWSとは、Amazon Web Servicesの略称で、アマゾン社が提供するクラウドコンピューティングサービスの総称です。主な特徴は以下の通りです。

1. インフラストラクチャーをサービスとして提供
AWSはコンピューティング、ストレージ、データベース、ネットワーキング、アプリケーション、セキュリティなど、さまざまなサービスを提供しています。これらのリソースは仮想化されており、必要に応じてすぐに利用できます。

2. オンデマンドでリソースを調達
従来のオンプレミスの環境では、ハードウェアの購入・構築が必要でしたが、AWSではオンデマンドでリソースを調達できます。負荷に応じて柔軟にスケーリングが可能です。

3.料金体系が使った分だけ
サーバーやストレージなどの実際の利用量に応じて料金が発生する従量課金モデルを採用しています。初期費用がかからず、必要なリソースのみ支払えばよいのでコストを抑えられます。

4.高い可用性・冗長性
AWSはデータセンターを世界中に分散させ、高い可用性とデータ冗長性を実現しています。障害が起きても、他リージョンでサービスを継続できます。

5. セキュリティ対策が万全
Amazon自身の厳格なセキュリティ基準に基づき、物理的・運用的なセキュリティ対策が講じられています。

AWSを利用することで、システム構築にかかる初期費用を抑えつつ、グローバルに高可用性なサービスを提供できるメリットがあります。クラウドサービスを本格的に利用する際には、AWSを中心に検討されることが多くなっています。

Claude 3.5 Sonnet出力結果(バージニア北部)

AWSは「Amazon Web Services」の略称で、Amazonが提供するクラウドコンピューティングサービスです。以下にAWSの主要な特徴と利点を解説します:

1. サービスの多様性:
   - コンピューティング、ストレージ、データベース、ネットワーキング、分析、機械学習、IoTなど、200以上のサービスを提供しています。

2. スケーラビリティ:
   - 需要に応じて迅速にリソースを拡大・縮小できます。

3. 柔軟性:
   - 必要なサービスのみを選択し、利用できます。

4. コスト効率:
   - 従量課金制で、初期投資を抑えられます。

5. グローバルインフラストラクチャ:
   - 世界中の複数のリージョンとアベイラビリティーゾーンで運用されています。

6. セキュリティ:
   - 高度なセキュリティ機能と規制遵守サービスを提供しています。

7. 革新性:
   - 常に新しい技術やサービスを導入しています。

8. 使いやすさ:
   - マネジメントコンソール、CLI、SDKなど、様々な管理ツールを提供しています。

9. サポート:
   - 技術サポートや教育リソースが充実しています。

10. エコシステム:
    - パートナー企業や開発者コミュニティが豊富です。

AWSは、スタートアップから大企業まで、様々な規模の企業がITインフラを構築・運用するために広く利用されています。クラウドの利点を最大限に活用し、ビジネスの成長や革新を支援する強力なプラットフォームとして位置づけられています。

モデルメトリクス(バージニア北部)

メトリクス Claude 3 Sonnet Claude 3.5 Sonnet
レイテンシー 10328 ms 13152 ms
入力トークン数 14 14
出力トークン数 568 546

Claude 3 Sonnet出力結果(オレゴン)

AWS(Amazon Web Services)は、アマゾンが提供するクラウドコンピューティングサービスです。主な特徴とサービスは以下の通りです。

1. インフラストラクチャーサービス
- EC2(Elastic Compute Cloud) - クラウド上の仮想サーバー
- EBS(Elastic Block Store) - ブロックストレージ
- VPC(Virtual Private Cloud) - 仮想ネットワーク

2. ストレージサービス  
- S3(Simple Storage Service) - オブジェクトストレージ
- EFS(Elastic File System) - ファイルストレージ
- Glacier - 低コストのアーカイブストレージ

3. データベース
- RDS(関係データベースサービス) - SQL データベース
- DynamoDB(NoSQLデータベース)  
- Redshift(データウェアハウス)

4. 分析  
- Athena(対話型分析サービス)
- EMR(大規模な分散データ処理)

5. 開発者ツール  
- CodeCommit(プライベートGitリポジトリ)
- CodeBuild/CodeDeploy/CodePipeline(CI/CDツール)

6. セキュリティとアイデンティティ
- IAM(アイデンティティとアクセス管理)
- KMS(暗号化キー管理)  

7. その他サービス
- SQS(メッセージキュー)
- SNS(通知サービス)
- CloudFront(コンテンツデリバリーネットワーク)
- Route53(DNSサービス)  
- など

AWSはサーバーレスアーキテクチャにも対応しており、Lambda(関数実行環境)やAPI Gateway(APIの構築・実行・管理)などを利用できます。

課金体系は主に従量課金制で、リソースの使用量に応じた支払いになり、事前の投資は最小限で済みます。また、多くのサービスでフリーティアも用意されています。

Opusの出力結果(オレゴン)

AWSは、Amazon Web Servicesの略称で、Amazonが提供するクラウドコンピューティングサービスです。AWSは、インターネット上で様々なITリソースを提供し、ユーザーはそれらを必要に応じて利用することができます。

AWSの主な特徴は以下の通りです:

1. 幅広いサービス:AWSは、コンピューティング、ストレージ、データベース、ネットワーキング、開発ツール、セキュリティなど、200以上のサービスを提供しています。

2. スケーラビリティ:AWSを使用すると、アプリケーションやサービスのニーズに応じて、リソースを簡単に拡張または縮小できます。

3. 柔軟性:ユーザーは必要なサービスを選択し、それらを組み合わせて独自のソリューションを構築できます。

4. コスト効率:AWSは従量課金制を採用しているため、ユーザーは実際に使用したリソースに対してのみ支払いを行います。

5. セキュリティ:AWSは、強固なセキュリティ機能を提供し、ユーザーのデータとアプリケーションを保護します。

AWSの代表的なサービスには、以下のようなものがあります:

1. Amazon EC2(Elastic Compute Cloud):仮想サーバーを提供するサービス
2. Amazon S3(Simple Storage Service):オブジェクトストレージサービス
3. Amazon RDS(Relational Database Service):管理型リレーショナルデータベースサービス
4. Amazon Lambda:サーバーレスコンピューティングサービス
5. Amazon CloudFront:コンテンツ配信ネットワーク(CDN)サービス

AWSは、スタートアップから大企業まで、幅広い顧客に利用されており、クラウドコンピューティング市場で大きなシェアを占めています。

モデルメトリクス(オレゴン)

メトリクス Claude 3 Sonnet Claude 3 Opus
レイテンシー 26020 ms 25603 ms
入力トークン数 14 14
出力トークン数 585 585

Opusとはリージョンが違うので正直単純に比較はできないものの、Claude 3.5 SonnetClaude 3 SonnetとではClaude 3.5 Sonnetの方がより多くの特徴を項目として上げており性能が上がってるのかなと感じられなくもない結果でした。

今後予定の新機能

リリース文には今後の予定として以下が挙げられていました。

  • エンタープライズアプリケーションとの統合
  • ビジネスユースをサポートする新しいモダリティ機能
  • パーソナライズ可能なMemory機能

終わりに

Claude 3が発表されてからほんの数ヶ月しか経っていないのに最新版がリリースされ、各社で抜きつ抜かれつを繰り返しており、生成AI領域の進化スピードはこれまで経験してきた中でも群を抜いて早く、キャッチアップが大変ですが同時に非常にエキサイティングな状況でもあり、今後も楽しみです。

7
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
5