LoginSignup
4
1

More than 1 year has passed since last update.

AWSの"推しのAI" 「Jurassic-2」を使ってみた!!Bedrockローンチ前に使えるんやん!

Posted at

Amazon Bedrock待ち遠しいですね!

どんなサービスになるかはお楽しみですが、Amazon製のAmazon Titan以外にも様々な基盤モデルが利用できるサービスのようです。

Bedrockでの提供がアナウンスされているAI21 Labs Jurassic-2が、なんとBedrockのローンチを待たずともすでに利用できることが判明しました!!

SageMaker Jumpstartで利用できるモデルの一覧にすでにリストアップされています。

image.png

サブスクリプションも可能で、実際に使用可能です!

image.png

Jurassic-2とは

AWSのブログでは

Amazon Bedrock を利用するお客様は、現在提供されている最先端の基盤モデルの中から選択できます。この中には AI21 Labs が提供する Jurassic-2 ファミリーも含まれます。Jurassic-2 ファミリーは多言語に対応しており、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、オランダ語でテキストを生成できます。

と紹介されています。日本語は対応してないようですが、AWSが激プッシュしていることは伺えます!

マーケットプレイス上の紹介文

  • Jurassic-2 Ultra は自然言語の指示と文脈に従うように最適化されているため、例文を提供する必要はありません。
  • AI21 Labsにより、自然言語とコンピュータプログラムを含むウェブテキストのコーパスに、最近のデータを用いて訓練された言語モデル(2022年半ばに更新済み)。このモデルは8192トークンのコンテキストウィンドウを持つ(つまり、プロンプト+補完の長さは最大8192トークンでなければならない)。
  • スタンフォード大学の HELM ベンチマークでは、Jurassic-2 Ultra は LLM モデルの上位にランクされています。内部評価によると、Jurassic-2 Ultra の勝率は 86.8%で、LLM 分野のリーダーとして確固たる地位を築いています。

推し!推しのAIがJurassic-2!!

提供されているJurassic-2モデル

モデル 説明
AI21 Jurassic-2 Ultra 最高品質のために設計されたクラス最高の指示追従モデル。クリエイティブでオーダーメイドのテキスト作成に最適。
AI21 Jurassic-2 Mid 品質と遅延のトレードオフを最適化したクラス最高のモデル。自然言語によるテキスト生成に最適。
AI21 Jurassic-2 Light Jurassic-2 Lightは、最大限の低価格と最小限のレイテンシーを必要とするシンプルな言語タスクに理想的な選択肢です。
AI21 Summarize ワールドクラスの要約エンジンでテキストを要約。あらゆる種類のテキストを高品質で素早く統合。
AI21 Paraphrase 文章を言い換え、より説得力のある効果的な文章を作成する。テーマや形式に合わせて、トーンや長さを調整する。
AI21 Grammatical Error Correction スペルミス、文法、句読点、誤用された単語などの修正方法を提案する校正機能。

プロンプトを工夫することで様々な振る舞いをするモデルの他に、用途専用のモデルも用意されており、これらの説明にはNo prompting neededとあります。なるほど、たしかにプロンプトを与えずに要約してもらえるのは便利だと思います。

Jurassic-2 Ultraのデプロイが可能なSageMakerインスタンス

それぞれのモデルにはデプロイ可能なインスタンスが指定されています。一番高性能なJurassic-2 Ultraがデプロイできるインスタンスは以下のものです。

  • ml.p4de.24xlarge
  • ml.p4d.24xlarge
  • ml.g5.48xlarge

想像がつかないサイズ感ですね。スペックは以下のとおりです。

インスタンスタイプ vCPU メモリ(GiB) GPUs GPUメモリ(GB)
ml.p4de.24xlarge 96 1152 8 640
ml.p4d.24xlarge 96 1152 8 320
ml.g5.48xlarge 192 768 8 192

桁違いのモンスター級スペック!!

気になるお値段は以下の通り。

インスタンスタイプ 価格(/h) 価格(/720h)
ml.p4de.24xlarge $47.1106 $33,919.6320
ml.p4d.24xlarge $37.6885 $27,135.7200
ml.g5.48xlarge $20.3600 $14,659.2000

1ドル120円換算で、ml.p4de.24xlargeの場合は月400万円を超えます😂

MidやLightはml.g4dn.12xlargeから、Summarizeはml.g5.xlargeから、ParaphraseとGrammatical Error Correctionはml.g4dn.2xlargeから利用可能です。
専用モデルはインスタンスについても実用的に抑えられてますね。

人生初"48xlarge"を起動(注:個人のアカウントです)

ここまで調べたらもうやらずにいられません

ただ、デフォルトクオータでは0台までしか起動できないので、上限緩和申請を行います。
まずはml.p4d.24xlargeインスタンスの上限緩和を申し出ましたが、

人気のインスタンスやから在庫ないねん。代わりにg5、inf2、trn1つかってくれへん?

と英語で回答が来ましたので、ml.g5.48xlargeの上限緩和を行い、こちらは無事(しかも1時間ぐらいで)適用されました。

SageMakerの設定手順はこちらに記載しました。手順もありますので難しくありませんでした。
長くなるので別記事にしました。

気になる性能は??

OpenAIとの性能差がきになるところと思います。OpenAIのExamplesと同じプロンプトを実行し、比較してみました。

検証結果は主観になりますが、以下の基準でつけました。
◎:OpenAIと遜色なし
○:OpenAIと同等ですが少しコメントあり
△:比較するとOpenAIより劣っているように感じた
×:エラー回答

項目 検証結果 コメント
Q&A
Grammar correction
Summarize for a 2nd grader
Natural language to OpenAI API コード生成だけでなく、コードに対するコメントも生成された
Text to command ×
English to other languages フランス語、スペイン語はOK。日本語が誤っている
Natural language to Stripe API コード生成だけでなく、コードに対するコメントも生成された
SQL translate
Parse unstructured data
Classification
Python to natural language 内容は問題ないが出力形式が大きく異なる
Movie to Emoji スターウォーズ以外にも大量に出力されたw
Calculate Time Complexity 他と異なり、OpenAIのほうが詳細な解説が含まれる
Translate programming languages Haskellがわからないですがなんとなく違う出力に見えます
Advanced tweet classifier
Explain code コード生成だけでなく、コードに対するコメントも生成された
Keywords Jurassic-2 Ultraのほうが抽出されたキーワードが少ない
Factual answering
Ad from product description Jurassic-2 Ultraのほうがシンプルな出力
Product name generator
TL;DR summarization
Python bug fixer コード生成だけでなく、コードに対するコメントも生成された
Spreadsheet creator 表の生成だけでなく、表に対するコメントも生成された
JavaScript helper chatbot
ML/AI language model tutor.
Science fiction book list maker
Tweet classifier
Airport code extractor
SQL request コード生成だけでなく、コードに対するコメントも生成された
Extract contact information
JavaScript to Python
Friend chat チャットの相手役だけでなく自分に成り代わってやり取りまでしてくれちゃいました
Mood to color コード生成だけでなく、コードに対するコメントも生成された
Write a Python docstring OpenAIのほうがdocstringっぽい書式になってます。
Analogy maker
JavaScript one line function
Micro horror story creator
Third-person converter Jurassic-2 Ultraのほうが正しい英語のような気がします
Notes to summary プロンプトの意図とはちょっと違う
VR fitness idea generator
Essay outline
Recipe creator (eat at your own risk)
Chat
Marv the sarcastic chat bot
Turn by turn directions
Restaurant review creator
Create study notes 5つ挙げるはずが4つ(トークンの問題?)
Interview questions 質問を生成してほしいが生成されなかった

実際の実行結果はこちらを参照ください。また、日本語でのプロンプトを実行した結果も載せています。

Text to command以外は回答を返してくれ、ほぼ期待通りの結果が返ってきました。少なくとも、OpenAIの回答として提示されても違和感はない精度でした。

日本語については、全く未対応というわけではなさそうですが、現時点では英語に比べ精度が落ちる印象でした。

まとめ

以上、Jurassic-2について調べた結果となります。
性能については問題なしと感じました。レスポンスも数秒で返答が得られる印象でした。
日本語対応に期待ですね。

気になる課金ですが、、

image.png

5.8ドルで抑えました!w

あー怖かった

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1