More than 1 year has passed since last update.

Amazon Bedrock "Claude 2" と、ChatGPT "GPT-4" を比較してみる

Last updated at 2023-10-20Posted at 2023-09-28

Amazon Bedrockとは?

2023/9/28にAWSが生成系AIのサービス「Amazon Bedrock」を正式リリース (GA) しました。
「Amazon Bedrock」は、様々な企業の基盤モデル(FM)を1つのAPIで利用できるようにするサービスです。
基盤モデルとは、大量のデータで事前訓練された大規模な機械学習モデルのことで、用途は幅広く、検索からコンテンツ作成、医薬品開発など、様々な分野で活用できます。
Amazon Bedrockは、この基盤モデルの利活用が容易にできるサービスとなっています。

ユーザーは、AIのスタートアップや著名な企業が開発した基盤モデルを簡単に試すことができ、また、自社のデータを使ってカスタマイズすることもできます。

「Amazon Bedrock」は言うまでもなくサーバレスであり、インフラの運用が不要であることに加え、ChatGPTとは異なりIAMによるセキュリティの管理も可能となります。

「Amazon Bedrock」では、OpenAIのGPT-4こそ使えませんが、元OpenAIの社員によって設立されたAnthropic社の大規模言語モデルであるClaude 2が利用できます。
Claude 2は、日本語の大規模言語モデルの評価を行う「Rakuda Ranking of Japanese AI」で、GPT-4に次いで2番目に高評価を得ています。

(引用: Rakuda Ranking of Japanese AI)

なお、AmazonとAnthropicは、生成系AI (Generative AI) の開発に関する戦略的協力を発表しています。
Anthropicは、AWSを主要なクラウドプロバイダとして位置付けており、将来の基盤モデルをAWS TrainiumとInferentiaチップ上でトレーニングおよびデプロイし、AWSの高性能で低コストの機械学習アクセラレータを活用すると宣言しています。

詳しくは、4月に書いたこちらの記事もご参照ください。
「AWSによる生成AIの新サービス「Amazon Bedrock」の可能性を考察する」

GPT-4とClaude 2に阪神タイガースのアレを予想させてみる

前述の評価によれば、日本語対応という側面で、Claude 2はGPT-3.5よりも優れ、GPT-4よりは劣るとされます。
この両者の特徴を知るために、一つのプロンプトを例に比較を行ってみます。

検証したプロンプトは以下の通りで、阪神タイガースのアレ (優勝の意) を、優勝決定前日の状況を踏まえて予想させるというものです。

前日は優勝が決まっていませんので、まだ優勝と言ってはいけません。

　日本のプロ野球の阪神タイガースは、9/13の試合に勝ったことで、アレへのマジックナンバーを1としています。過去、タイガースはマスコミからアレ確実と報道される度、2位チームの猛烈な追い上げにあい、例え大差でも、逆転されてアレを逃してしまうジンクスがありました。今年のタイガースは、残り16試合で2位と13ゲーム差が付いていますが、アレは確実と考えて良いでしょうか?

GPT-4 (OpenAI) の回答

このプロンプトをGPT-4に数回解かせた結果、多少のブレはあるものの、回答の性質は共通して「論理的」であり「数学的」であるという特徴が見える結果となりました。

以下で示すように、アレに対して、数字を基にして結果を予想していることがお分かりいただけるかと思います。

阪神タイガースのアレに関する状況をまとめると、以下のようになります。

マジックナンバー: 1
残り試合数: 16試合
2位とのゲーム差: 13ゲーム

マジックナンバー1というのは、阪神タイガースが次の1試合に勝つか、
または2位のチームが次の1試合に負ければ、阪神タイガースのアレが
確定するという意味です。

実際の計算を元に考えてみましょう。

まず、仮に阪神タイガースが残りの16試合すべて負ける場合の成績を考えます。
この場合、タイガースの最終的な敗北数は現在の敗北数に16を足したものとなります。
次に、2位のチームが残りの試合をすべて勝つ場合の成績を考えます。
この場合、2位のチームの最終的な勝利数は現在の勝利数に16を足したものとなります。

この2つのシナリオを基に、2位のチームがタイガースを逆転できるかどうかを
計算してみましょう。

最悪のシナリオの場合、2位のチームが阪神タイガースを逆転するためには、
ゲーム差を19ゲーム変動させる必要があります。
しかし、残りの試合は16試合しかないため、この変動は物理的に不可能です。

したがって、ジンクスや歴史的な背景を考慮しない純粋な数学的な観点からは、
阪神タイガースの今年のアレは確実と言えます。

しかし、スポーツは感情や状況、プレッシャーなど多くの要因が絡み合い、
予測が難しいことも多いので、結果が出るまで油断は禁物です。

Claude 2 (Amazon Bedrock) の回答

一方で、Amazon BedrockのClaude 2に同じプロンプトを解かせると、GPT-4ほど回答は論理的ではありませんが、たとえ話を用いてファン心情に踏み込んだ回答をしています。
数回試しましたが、残り試合数などから厳密な予想をすることはなく、この回答の傾向は変わりませんでした。

はい、阪神タイガースのアレはほぼ確実だと考えられます。

理由は以下の通りです:

残りの試合が16試合と少ない
2位のチームとのゲーム差が13もある
過去の逆転劇はあったが、この程度の大差を埋めるのは極めて困難
タイガースの選手たちもアレに向けて気を引き締めているだろう

ただし、まだマジックナンバーが1ということは、確定ではありません。 
形勢は圧倒的にタイガース有利で、逆転の可能性は極めて低いですが、
サッカーで「試合は90分間」ということがあるように、
野球でも最後のアウトまで終わっていません。

ですので、あと一息の思いで最後まで見守っていく必要があると思います。

ほぼ確実だと考えて間違いないと思いますが、最後の瞬間まで油断は禁物です。
タイガースの選手たちもきっとその思いでプレーしているはずです。

なお、どちらもプロンプトでは優勝という文言を使いませんでしたが、「アレ」を「リーグ優勝」のことと推測して回答を作成していました。
数回の試行の中で、どちらのモデルでも推測を失敗したり間違えたりすることは一切なく、常に「アレ = リーグ優勝」であると推測できていました。

なお、Amazon BedrockでClaude 2を利用するには、ChatまたはTextのPlaygroundを使用するか、API経由で呼び出します。
以下の画像は、参考画面です。

https://us-west-2.console.aws.amazon.com/bedrock/home?region=us-west-2#/chat-playground

まとめ

「Amazon Bedrock」がついにGAとなり、現在使用できるモデルの中で、日本語に対応し、かつGPT-4の次に評価が高いClaude 2を試してみました。
今回のプロンプトによる検証では、GPT-4の回答は「論理的」「数学的」になりやすく、Claude 2は人間の心理や感情をより考慮した回答を作りやすいのではないかという結果が得られました。

今後、さらに踏み込んで様々なプロンプトで双方の性質の違いを試していく必要がありますが、Claude 2は顧客対応のように気持ちを込める必要がある場面で、GPT-4よりも優れた成果を発揮できるのかもしれません。

さて、以前の記事でも述べたように「Amazon Bedrock」は、様々なベンダーの基盤モデルを同一のAPIで扱えることが売りで、基盤モデルに関してベンダーロックインされていないと言えます。
これに対して「Azure OpenAI Service」は "OpenAI Service" であるだけに、OpenAIのモデルは使えますが、それ以外のベンダーのモデルは使えません。

この特徴の差を踏まえると、AWSの「Amazon Bedrock」は、今後の成長や拡張の可能性が他のサービスに比べて大きいと言えます。
「Amazon Bedrock」がGAになるまでの間、AWSの生成系AIの取り組みは他社よりも出遅れていたと言われていましたが、果たしてここからの大逆襲はあるのでしょうか。

参考文献

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up