re:Invent 2024にて、AWSの新しい基盤モデルA「Amazon Nova」が発表されました。
Amazon Novaに関するモデル紹介ページも公開されています。
基調講演の様子はすでに動画で公開されています。
AWS re:Invent 2024 - CEO Keynote with Matt Garman
※Amazon Novaのアナウンスの部分までスキップします
Amazon Novaとは
上記モデル紹介ページでは、以下のように説明されています。
Amazon Nova is a new generation of state-of-the-art (SOTA) foundation models (FMs) that deliver frontier intelligence and industry leading price-performance, available exclusively on Amazon Bedrock.
Amazon Nova Microを日本語に翻訳すると、以下の通りです。
Amazon Novaは最先端の次世代基盤モデル(FM)であり、最先端の知性を届け、業界最高の価格性能を提供し、Amazon Bedrockでのみ利用可能です。
性能が良く価格も安いのがアピールポイントのようです。
Amazon Novaの特徴
Amazon Novaはテキスト生成モデルだけでなく、画像生成や動画生成も可能です。
公式サイト上では、以下名称で表現されています。
- テキスト生成モデル: Amazon Nova understanding models
- 画像や動画生成モデル: Amazon Nova creative content generation models
テキスト生成モデルについては、対応言語が「200+ languages」となっており、日本語も公式にサポートされています。
ブログでは、以下のように日本語対応であることが明記されています。
These models understand and generate content in over 200 languages, with particularly strong capabilities in English, German, Spanish, French, Italian, Japanese, Korean, Arabic, Simplified Chinese, Russian, Hindi, Portuguese, Dutch, Turkish, and Hebrew.
Amazon Novaのラインナップ
テキスト生成モデルが複数ラインナップされています。また、マルチモーダル機能が動画をサポートしているのも特徴です。
- テキスト生成モデル
- Amazon Nova Micro: 最軽量モデル(インプットはテキストのみ)
- Amazon Nova Lite: マルチモーダル対応で最も安価なモデル
- Amazon Nova Pro: 性能が良いモデル
- Amazon Nova Premier: 最上位モデル(2025年第一四半期に登場予定)
- 画像生成モデル
- Amazon Nova Canvas
- 動画生成モデル
- Amazon Nova Reel
Amazon Novaの性能
基調講演では、他社のモデルとのベンチマークが詳細に語られました。各モデルごとに「他社のどのモデルを意識しているか」が読み取れて面白いですね。
以下の表は、YouTubeの基調講演の画面キャプチャから、Nova Proを使ってテキストかしました。黙示確認はしましたが、誤っている部分があるかもしれませんので誤りに気づかれましたらコメントください。
Amazon Nova Micro
比較対象モデル
- Gemini 1.5 Flash 8B
- Llama 3.1 8B
TASK | NOVA MICRO | GEMINI 1.5 FLASH 8B | LLAMA 3.1 8B |
---|---|---|---|
1 Language Understanding (MMLU - CoT) | 77.6% 🥇 | 68.10% | 73.00% |
2 General Reasoning (DROP - CoT) | 79.3% 🥇 | 68.10% | |
3 Common Sense Reasoning (ARC-c) | 90.2% 🥇 | 88.70% | 83.40% |
4 Deep Reasoning (GPQA - Main) | 40.0% 🥇 | 33.50% | 30.40% |
5 Mathematics (GSM8K) | 92.3% 🥇 | 84.50% | 84.50% |
6 Mathematics (MATH - CoT) | 69.3% 🥇 | 58.70% | 51.90% |
7 Python Code Generation (HumanEval) | 81.1% 🥇 | 81.1% 🥇 | 72.60% |
8 Multi-step reasoning (Big Bench Hard - CoT) | 79.5% 🥇 | 69.50% | |
9 Instruction Following (IF Eval) | 87.2% 🥇 | 86.10% | 85.00% |
10 Translation: EN to 14 Languages (Flores200) | 40.2 🥇 | 38.2 | 32.7 |
11 Translation: 14 Languages to EN (Flores200) | 42.6 🥇 | 41.4 | 36.5 |
Agentic Workflows | |||
12 RAG - Text (RAG) | 43.1% 🥇 | 37.70% | 42.20% |
13 Agent API Orchestration (FCLv3 - 11/17) | 56.2% 🥇 | 49.90% |
Amazon Nova Lite
比較対象モデル
- Claude 3.5 Haiku
- GPT-4o mini
- Gemini 1.5 Flash
- Llama 3.2 11B
TASK | NOVA LITE | CLAUDE 3.5 HAIKU | GPT-4o MINI | GEMINI 1.5 FLASH | LLAMA 3.2 11B |
---|---|---|---|---|---|
TEXT INTELLIGENCE | |||||
1 Language Understanding (MMLU-CoT) | 80.5% 🥇 | 80.30% | 82.00% | 78.90% | 73.00% |
2 General Reasoning (DROP-CoT) | 80.20% | 83.1% 🥇 | 79.70% | 78.40% | |
3 Common Sense Reasoning (ARC-c) | 92.4% 🥇 | 90.90% | 92.30% | 94.30% | 83.40% |
4 Deep Reasoning (GPQA-Main) | 42.00% | 37.50% | 41.70% | 45.1% 🥇 | 32.80% |
5 Mathematics (GSM8K) | 94.5% 🥇 | 93.80% | 86.40% | 86.20% | 84.50% |
6 Mathematics (MATH-CoT) | 73.30% | 69.40% | 70.20% | 77.9% 🥇 | 51.90% |
7 Python Code Generation (HumanEval) | 85.40% | 88.1% 🥇 | 87.20% | 81.30% | 72.60% |
8 Multi-step reasoning (Big Bench Hard- CoT) | 82.40% | 86.6% 🥇 | 81.00% | 85.50% | |
9 Instruction Following (IfEval) | 89.70% | 85.90% | 87.40% | 91.6% 🥇 | 85.00% |
10 Translation: EN to 14 Languages (Flores200) | 41.5 🥇 | 40 | 41.1 | 40 | 33 |
11 Translation: 14 Languages to EN (Flores200) | 43.1 🥇 | 40.2 | 41.9 | 42.9 | 36.3 |
VISUAL INTELLIGENCE | |||||
12 Visual Reasoning (MMMU-CoT) | 56.20% | 59.40% | 62.3% 🥇 | 50.70% | |
13 Image Understanding (ChartQA) | 86.8% 🥇 | 79.20% | 85.40% | 83.40% | |
14 Document Understanding (DocVQA) | 92.4% 🥇 | 89.90% | 88.40% | ||
15 Video Captioning (VATE) | 77.8% 🥇 | 57.10% | |||
16 Visual Question Answering (TextVQA) | 80.2% 🥇 | 70.30% | 78.70% | 71.30% | |
17 User Interface Grounding (GroundU-1-K) | 80.2% 🥇 | 7.20% | 59.90% | 3.70% | |
AGENTIC WORKFLOWS | |||||
18 RAG-Text (CRAG) | 43.80% | 31.90% | 49.9% 🥇 | 42.40% | 42.20% |
19 Agent API Orchestration (BfClv3-1/17) | 66.6% 🥇 | 60.70% | 56.20% | 49.90% | |
20 Web Browser Grounding (VisualWebBench) | 77.7% 🥇 | 71.30% | 76.10% | 65.10% | |
21 Multimodal Web Agents (Mind2Web) | 60.7% 🥇 | 58.60% | 46.20% | 22.10% |
Amazon Nova Pro
最後にNovaProです。
比較対象モデル
- Claude 3.5 Sonnet V2
- GPT-4o
- Gemini 1.5 Pro
- Llama 3.2 90B
TASK | NOVA PRO | CLAUDE 3.5 SONNET V2 | GPT-4o | GEMINI 1.5 PRO | LLAMA 3.2 90B |
---|---|---|---|---|---|
TEXT INTELLIGENCE | |||||
1 Language Understanding (MMLU - CoT) | 85.90% | 89.3% 🥇 | 88.70% | 85.90% | 86.00% |
2 General Reasoning (DROP - CoT) | 85.40% | 88.3% 🥇 | 83.40% | 74.90% | |
3 Common Sense Reasoning (ARC-c) | 94.80% | 96.3% 🥇 | 95.20% | 95.40% | 94.80% |
4 Deep Reasoning (GPOA - Main) | 46.90% | 58.0% 🥇 | 48.40% | 55.10% | 46.70% |
5 Mathematics (GSMBK) | 94.80% | 96.5% 🥇 | 92.60% | 90.80% | 95.10% |
6 Mathematics (MATH - CoT) | 76.60% | 78.3% 🥇 | 76.60% | 86.50% | 68.00% |
7 Python Code Generation (HumanEval) | 89.00% | 93.7% 🥇 | 90.20% | 87.80% | 80.50% |
8 Multi-step Reasoning (Big Bench Hard - CoT) | 86.90% | 93.2% 🥇 | 83.00% | 89.20% | |
9 Instruction Following (IFEval) | 92.1% 🥇 | 90.20% | 89.80% | 91.20% | 90.90% |
10 Translation: EN to 14 Languages (Flores200) | 45.4 | 42.5 | 43.1 | 45.0 🥇 | 39.2 |
11 Translation: 14 Languages to EN (Flores200) | 44.4 | 45.5 🥇 | 45.9 | 45.6 | 43.7 |
VISUAL INTELLIGENCE | |||||
12 Visual Reasoning (MMMU - CoT) | 61.70% | 70.4% 🥇 | 69.10% | 65.90% | 60.30% |
13 Image Understanding (ChartQA) | 89.20% | 90.8% 🥇 | 85.70% | 87.20% | 85.50% |
14 Document Understanding (DocVQA) | 93.50% | 94.2% 🥇 | 92.80% | 93.10% | 90.10% |
15 Video Captioning (VATE) | 77.8% 🥇 | 64.60% | |||
16 Visual Question Answering | 81.5% 🥇 | 61.70% | 72.20% | 78.70% | 80.20% |
17 User Interface Grounding (GroundUI-1K) | 81.4% 🥇 | 16.30% | 13.40% | 35.20% | 8.30% |
AGENT WORKFLOWS | |||||
18 RAG - Text (CRAG) | 50.30% | 52.6% 🥇 | 52.00% | 48.90% | 45.20% |
19 Agent API Orchestration (BC/Lv3 - 1/17) | 68.40% | 61.3% (v1) | 68.9% 🥇 | 59.80% | 54.30% |
20 Web Browser Grounding | 79.7% 🥇 | 76.70% | 77.50% | 76.40% | 73.20% |
21 Multimodal Web Agents | 63.7% 🥇 | 61.60% | 55.00% | 58.40% | 21.60% |
Amazon Novaの価格
まずはNova Proと他のモデルの比較です。
性能評価ではClaude 3.5 Sonnet V2、GPT-4oがライバルと見ているようだったので、価格比較ではかなり攻めた金額設定になっています。Claude 3.5 Haikuよりも安い価格です。
そのほかのモデルの比較です。Claude 3.5 Sonnet V2、GPT-4oは価格帯が異なるのでグラフから除外しています。
Amazon Novaの出力例
最後に、簡単に出力例を掲載します。
テキスト生成モデル
Amazon Nova Proを使って以下の処理を行いました。
- YouTubeの文字起こしをコピペした内容を、英語のまま整形
- 日本語に翻訳
出力結果
さて、Amazon Novaのローンチを発表し、共有することを嬉しく思います。これは、最先端のインテリジェンスと業界をリードする価格性能を提供する、当社の新しい最先端の基盤モデルです。[拍手]
この知的なモデルセットには4つの種類があります。まず1つ目はmicroで、これはテキストのみを扱うモデルです。テキストを入力し、テキストを出力します。非常に高速で、非常にコスト効率が良く、当社の内部開発者は多くの簡単なタスクでこれを非常に楽しんでいます。そして、3つのマルチモーダルモデルの種類があります。これらのモデルでは、テキスト、画像、またはビデオを入力し、テキストを出力することができます。これらの各モデルは、サイズとインテリジェンスの昇順になっています。micro、light、proモデルは今日から一般に利用可能です。premierモデルは第1四半期の期間内に利用可能になる予定です。
いくつかのベンチマークを共有します。可能な場合は外部で公開されたベンチマークを使用し、利用できない場合は自社で実施しました。方法論を当社のウェブサイトで公開しており、試して再現することもできます。microモデルでは、非常に競争力のあるモデルであることがわかります。このクラスの先頭を行くモデル、LlamaやGoogleのGeminiと比較すると、生データではLlamaに対してすべての変数で、Geminiに対しては12〜13の変数でベンチマークが優れています。ただし、統計的有意性検定を行ったところ、95%の信頼区間内で重複するすべての数値を等しいとみなしました。そのため、この方法で見ると、LlamaやGeminiと比較して、すべてのベンチマークで等しいか優れています。
lightモデルを見てみると、非常に競争力のある同様の話です。Nova Lightをopen AIのGPT-4.0 miniと比較すると、19のベンチマークのうち17で等しいか優れており、Geminiに対しては21のベンチマークのうち17で等しいか優れており、Haiku 3.5に対しては12のベンチマークのうち10で等しいか優れています。Haikuはまだ画像やビデオを扱っていないため、それほど多くの次元でベンチマークできませんでしたが、それでも非常に競争力のあるモデルです。そして、proモデルを見てみると、同じ話です。GPT-4.0と比較すると、20のベンチマークのうち17で等しいか優れており、Geminiに対しては21のベンチマークのうち16で等しいか優れています。このクラスのモデルの中で最高のモデルはSonnet V2 3.5です。しかし、ここでも、proモデルが約半分で等しいか優れていることがわかります。そうでないものでも非常に競争力があり、コストとレイテンシーの特徴が気に入るでしょう。
premierモデルは、最大のマルチモーダルモデルとなり、第1四半期の期間内に利用可能になる予定です。これらは4つの非常に競争力のある魅力的なインテリジェンスモデルです。しかし、これらのモデルについて他にも気に入っていただける点があります。まず、非常にコスト効率が良いことです。Bedrockの他の主要モデルよりも約75%安価です。2つ目は、速いことです。レイテンシーに関して最も速いモデルです。また、昨夜Peterが話していたSKU、レイテンシー最適化された推論SKUも利用可能になります。非常に速く、Bedrockに統合されているだけでなく、Bedrockのすべての機能と深く統合されています。このチームが時間をかけて行ったことです。つまり、ファインチューニングが可能になります。多くのアプリ開発者が生成AIでラベル付きの例を使用してファインチューニングを行い、アプリケーションのパフォーマンスを向上させたいと望んでいます。Novaモデルは、Mattが話した蒸留機能とも統合されています。これにより、より大きなモデルの知能をよりコスト効率が良く、レイテンシーの低い小さなモデルに注入することができます。Bedrockのナレッジベースに深く統合されており、RAGを使用して独自のデータで回答を裏付けることができます。また、これらのモデルを独自のシステムやAPIと連携して最適化しており、複数の自動化された手順やエージェント的な動作をより簡単に行うことができます。
これらは非常に魅力的だと思います。試してみて使用していただけることを楽しみにしています。顧客は、テキスト出力だけでなく、生成AIでさらに多くのことを行いたいと考えています。画像やビデオに関するニーズも多くあり、シンプルなものでは広告やマーケティング、取引材料などがあります。この問題に取り組み、2つのモデルをさらに発表できることを嬉しく思います。
1つ目はAmazon Nova Canvasで、これは当社の最先端の画像生成モデルです。[拍手] Canvasでは、自然言語テキストを入力し、画像を受け取ります。美しい画像で、スタジオ品質の画像です。自然言語やテキスト入力を使用して画像を編集できます。カラースキームやレイアウトの制御が可能で、AIの責任ある使用のための組み込み制御が多数あります。トレーサビリティのためのウォーターマーキングや、有害なコンテンツの生成を制限するためのコンテンツモデレーションが含まれます。また、この分野の他の最先端のプレーヤーと比較してベンチマークを行いました。この場合、Dolly 3とstable diffusion 3.5という、一般的に2リットルと考えられるものを選び、最も重要な2つの変数、画像品質と指示の遵守でベンチマークを行いました。Canvasが両方の次元で両方を上回っていることがわかります。また、人間による評価も行い、同様の結果が見られました。これは魅力的なモデルです。そしてもちろん、ビデオの生成も簡単に行えるようにしたいと考えています。そのため、最先端のビデオ生成モデルであるAmazon Nova Reelのローンチを発表できることを嬉しく思います。[歓声と拍手]
Reelでは、スタジオ品質のビデオです。本当に素晴らしいビデオを作成できます。カメラの完全な制御が可能で、モーションコントロールができます。パンニングができます。360度回転やズームができます。また、ウォーターマーキングやコンテンツモデレーションなどの安全なAIのための組み込みAI制御もあります。6秒のビデオを作成できるようにローンチし、これは多くのマーケティングや広告に適しています。今後数ヶ月で最大2分間のビデオまで対応する予定です。これもベンチマークを行いました。APIを持つビデオ生成サービスはあまりなく、自動化されたベンチマークもありません。そのため、runwayのリーダーの1人と人間による評価でベンチマークを行いました。Reelが他のものと比較して非常に有利にベンチマークされていることがわかります。
これらは6つの新しいフロンティアモデルです。Novaで次に何が起こるでしょうか?まず、チームは来年にかけてこれらのモデルの第2世代に取り組む予定です。また、いくつか先行公開したいことがあります。1つ目は、第1四半期の期間内にSpeech-to-Speechモデルを提供する予定です。これにより、音声を入力し、非常に流暢で速い音声を受け取ることができます。[拍手] そして、年中頃にはAny-to-Anyモデルを提供する予定です。これは本当にマルチモーダルからマルチモーダルです。[拍手] テキスト、音声、画像、ビデオを入力し、テキスト、音声、画像、ビデオを出力することができます。これがフロンティアモデルの構築と消費の未来であり、これを皆さんに提供できることを楽しみにしています。
AWSのモデル戦略についてどう考えるべきかと疑問に思うかもしれません。彼らは多くのモデルプロバイダーと非常に深いパートナーシップを持ち、自社のモデルもいくつか持っています。私が考える方法は、私たちが常に提供する選択肢の方法です。つまり、どこでも見つけることができる最も広範で最高の機能を提供することです。そして、それは選択を意味します。現実には、皆さんは異なる理由で異なるモデルを異なる時期に使用することになります。これは現実世界の仕組みです。人間はすべての分野で1人の人間に専門知識を求めません。異なる分野で優れた異なる人間がいます。時にはコーディングを最適化し、時には数学を、時にはRAGとの統合を、時にはエージェント的なニーズを、時には低いレイテンシーを、時にはコストを、ほとんどの場合これらの組み合わせを最適化することになります。AWSでは、常に最高の組み合わせを提供します。そして、今日、かなり興味深いモデルをミックスに追加したと思います。素晴らしいことは、これらのモデルはすべてBedrockで利用可能であり、好きな組み合わせで使用でき、実験し、時間とともに変更できることです。今日だけでなく、将来もその選択と選択肢を提供します。それでは、Mattに戻ります。
画像生成モデル
Nova Canvasを使い、プロンプトに「Illustration of a cat walking through the streets of Las Vegas」と指定しました。
また、マネジメントコンソールを見る限り画像の置き換えや背景削除なども可能なようです。
動画生成モデル
Nova Reelで動画を生成しました。テキストからの動画生成だけでなく、画像をインプットにして動画生成することもできます。
上記で作成した画像をインプットとして、「a cat walking through the streets of Las Vegas」のプロンプトとともに動画を生成しました。
APIで呼び出す場合は、新しい「StartAsyncInvoke」というAPIを使用する必要があります。