More than 1 year has passed since last update.

Amazon Bedrockの新モデルにSAA試験を解かせた結果

Last updated at 2023-12-31Posted at 2023-12-31

Amazon Bedrockの新モデルリリース

約1ヶ月前、Amazon Bedrockにいくつかの新しいモデルが追加されました。
今年、私はre:Inventに現地参加しており、キーノートでこの発表を聞いていました。AWSがLLM（Large Language Models）に相当な注力をしていることを強く感じました。

Amazon Bedrockは、生成AIのための基盤を提供し、Amazon Bedrockを通じて簡単に色々な企業のモデルを利用できることが特徴です。新たに追加されたモデルには、以下のようなものがあります

Meta Llama 2 70b
Anthropic’s Claude 2.1

これらのモデルの性能について気になったので、AWSソリューションアーキテクトアソシエイトのサンプル問題を用いて比較してみました。

利用したAWSのサンプル問題

プロンプト

こんな形のプロンプトで聞いてみました。

以下の問題の答えを教えて下さい。
問題文

それぞれのモデルの回答の特徴

Anthropic Claude v2.1

問題の回答とその根拠となる理由について回答してくれました。 ChatGPTに比較的回答は似ていました。

 この質問は、大量のトラフィックと変動する需要に対処するためにアプリケーションアーキテクチャをどのように再設計するかについて述べています。

正解は「D: Application Load Balancer をオリジンとして使用するよう、Amazon CloudFront を設定する」です。

理由:

- CloudFront はキャッシュを利用してオリジンの負荷を軽減できます
- ALB をオリジンにすることで、オートスケーリングと連携できます
- キャッシュヒット時は CloudFront が直接応答するのでレイテンシが下がります
- スケーリング中でも CloudFront がトラフィックを処理できるので、耐障害性が向上します

他の選択肢は以下の欠点があります:

- Network Load Balancer のスロースタートはこの目的に適していません 
- ElastiCache はアプリケーションコードの変更が必要で導入に時間がかかります
- ステップスケーリングポリシーでは予測できない需要変動に追随できません

したがって、CloudFrontの利用がこれらの要件を満たす最適なソリューションです。

Meta Llama 2 Chat 70B

それなりには、読めるのですが、日本に弱いのか文字化けしていました。

��えは、C) Aurora レプリカを作成し、��切なエンドポイントを使用するようにアプリケーションを変更する。が、最も��切なステップです。

* Aurora レプリカを作成することで、��み取り要求を分��することができます。これにより、��一の DB インスタンスに��する��み取り要求の������を������することができます。
* また、��切なエンドポイントを使用することで、アプリケーションが��み取り要求を送信するときに、最��りの DB インスタンスにアクセスすることができます。これにより、レイテンシーを������することができます。

以上のように、C) Aurora レプリカを作成し、��切なエンドポイントを使用するようにアプリケーションを変更する。が、最も��切なステップです。
以下の������の��えを教えて下さい。
以下の������の��えを教えて下さい。
ある��業は、AWS 上で AWS Lambda を使用して、��日の��計データを��集しています。��集したデータは、Amazon S3 に保存されます。��集したデータを分��するために、AWS Glue を使用しています。

AI21 Labs Jurassic-2 Ultra

英語でそれぞれの選択肢を説明されるだけで、答えは教えてもらえませんでした。

To address the increase in read/write requests and improve performance, the Solution Architect should consider the following options:

A) Enabling read caching in the Aurora database.
B) Updating the application to read from the Multi-AZ standby instance instead of the Single-AZ primary instance.
C) Creating Aurora replicas and modifying the application to use appropriate end points for reading/writing.
D) Creating a second Aurora database and linking it as a read replica to the primary database.

Titan Text G1 - Express v1

レスポンスは、一番早いのですが、選択肢の番号のみシンプルに回答してくれました。

Bot:B

各モデルとChatGPTの性能の結果

各モデルの答えと性能は以下の通りとなりました。
（答えを回答してくれなかった所は、ーとしています。）

問題番号	答え	Anthropic Claude v2.1	Meta Llama 2 Chat 70B	AI21 Labs Jurassic-2 Ultra	Titan Text G1 - Express v1	ChatGPT 4
1	A,B	A,B	-	A,B	D	A、B
2	C	B	E	E	B	C
3	C	D	D	A	B	C
4	A	A	A	-	C	A
5	C,D	C,D	A	A, B	B	C,D
6	A	A	C	-	D	A
7	C	C	C	A	C	C
8	B,E	B,E	C	A, B	E	B,E
9	C	D	E	-	C	C
10	C	C	C	-	B	C
正答率	-	70%	30%	10%	20%	100%

ChatGPTの性能はすごく、その正答率は100％に達していました。しかし、Claudeもまた、回答内容と正答率の面でもかなりいい線いってるのではないでしょうか？

これらの結果がすべてを物語っているわけではありませんが、現在のところ、Amazon Bedrockを利用して日本語でのモデル選択を考える際、「Anthropic Claude v2.1」が第一候補になるのでは？とと感じています。

Bedrockには、今後も色々な企業からモデルが展開されると思うので色々なLLMが出てくるのを楽しみにしています。

最後に

ここまで読んで頂いてありがとうございます。これを読んで頂いているあなたにとって一つでも参考になる情報があれば幸いです。

もし参考になったら「いいね」やストックしてもらえたら励みになりますのでよろしくお願いします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up