Azure OpenAI Serviceをデプロイした

Posted at 2024-10-08

背景・目的

最近、Azure OpenAIを触る機会がありましたので、あらためて基本的な知識と利用開始までの手順をまとめます。

まとめ

下記に特徴を整理します。

特徴	説明
Azure OpenAI Service	下記のモデルに対してのREST APIアクセスを提供します・GPT-4o ・GPT-4 Turbo with Vision ・GPT-4 ・GPT-3.5-Turbo ・Embeddings モデルシリーズなど
ユースケース	・コンテンツの生成・要約・画像の解釈・セマンティック検索・自然言語からコードへの翻訳
インタフェイス	下記を提供している・REST API ・Python SDK ・Azure OpenAI Studio
Azure OpenAIとOpenAIの違い	Azure OpenAIを使用により、OpenAIと同等のモデルを実施しながら、Azureのセキュリティ機能を使用できる
デプロイのタイプ	・Global-Batch ・グローバル標準・Standard ・プロビジョニング済み
プロビジョニング済み	・デプロイで必要なスループットの量を指定・スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニングスループットユニット (PTU) という観点で定義される
Standard	・選択されたモデルで呼び出し単位の支払いの課金モデルが提供される・消費した分だけ支払うので、最も早く使い始めることができる・各リージョンで使用できるモデルとスループットは、制限される場合がある・バースト性が高い中程度以下のボリューム用に最適化されてる・一貫して使用量が多い利用者は、待ち時間の変動が大きくなる可能性がある
グローバル標準	・Azure のグローバルインフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータセンターに動的にルーティングされる・最大の既定クォータが提供され、複数のリソース間での負荷分散の必要ない・一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性がある・しきい値はモデルごとに設定される・大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入を推奨
Global-Batch	・大規模で大量の処理タスクを効率的に処理するように設計されている・個別のクォータ、24 時間のターゲットターンアラウンド、Global Standard と比較した場合の 50% 低いコストで要求の非同期グループを処理する・バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信する

概要

下記を基に整理します。

Azure OpenAI Service は、GPT-4o、GPT-4 Turbo with Vision、GPT-4、GPT-3.5-Turbo、Embeddings モデルシリーズなど、OpenAI の強力な言語モデルへの REST API アクセスを提供します。これらのモデルは、特定のタスクに合わせて簡単に調整できます。たとえば、コンテンツの生成、要約、画像の解釈、セマンティック検索、自然言語からコードへの翻訳などです。ユーザーは、REST API、Python SDK、または Azure OpenAI Studio の Web ベースのインターフェイスを介してサービスにアクセスできます。

Azure OpenAI Serviceは、下記のモデルに対してのREST APIアクセスを提供します
- GPT-4o
- GPT-4 Turbo with Vision
- GPT-4
- GPT-3.5-Turbo
- Embeddings モデルシリーズなど
下記のようなユースケースに利用できる
- コンテンツの生成
- 要約
- 画像の解釈
- セマンティック検索
- 自然言語からコードへの翻訳
下記のインタフェイスを提供している
- REST API
- Python SDK
- Azure OpenAI Studio

機能の概要

Price

下記をご確認ください。

Azure OpenAI と OpenAI の比較

Azure OpenAI Service では、OpenAI GPT-4、GPT-3、Codex、DALL-E、Whisper、テキスト読み上げの各モデルを使用した高度な言語 AI を、Azure のセキュリティとエンタープライズの約束と共にお客様に提供します。 Azure OpenAI は OpenAI と共に API を共同開発し、互換性を確保し、一方から他方へのスムーズな移行を保証します。

Azure OpenAI を使用すると、顧客は OpenAI と同じモデルを実行しながら、Microsoft Azure のセキュリティ機能を使用できます。 Azure OpenAI では、プライベートネットワーク、リージョンの可用性、責任ある AI コンテンツのフィルター処理が提供されます。

Azure OpenAIを使用により、OpenAIと同等のモデルを実施しながら、Azureのセキュリティ機能を使用できる
下記を提供している
- プライベートネットワーク
- リージョンの可用性
- AIコンテツフィルター処理

トークン

テキストトークン

Azure OpenAI では、テキストをトークンに分割して処理します。トークンには、単語または文字のチャンクのみを指定できます。たとえば、"hamburger" という単語はトークン "ham"、"bur"、"ger" に分割されますが、"pear" のような短くて一般的な単語は 1 つのトークンです。多くのトークンは、"hello" や "bye" などの空白で始まります。

所与の要求で処理されるトークンの合計数は、入力、出力、および要求パラメーターの長さによって異なります。処理されるトークンの量は、モデルの応答待機時間とスループットにも影響します。

テキストをトークンに分割して処理する
トークンには、単語または文字のチャンクを指定できる
例:hamburgerは下記に分割される
- ham
- bur
- ger
例:pearは1トークン
多くのトークンは、hello、byeなどの空白で始まる

画像トークン (GPT-4 Turbo with Vision および GPT-4o)

入力画像のトークンコストは、画像のサイズと、各画像に使用される詳細設定 (低または高) の 2 つの主な要因によって異なります。仕組みの概要を次に示します。

詳細: 低解像度モード

低詳細度を使用すると、API ではより高速な応答を返し、高詳細度を必要としないユースケースに使用する入力トークンを減らすことができます。

これらの画像のコストは、画像サイズに関係なくそれぞれ 85 トークンです。

例: 4096 x 8192 の画像 (低詳細度): コストは固定の 85 トークンです。これは低詳細度の画像であり、このモードではサイズがコストに影響しないためです。

詳細: 高解像度モード

高詳細度を使用すると、API では画像をより小さな正方形にトリミングすることでより詳細に表示できます。それぞれの正方形では、テキストを生成するためにより多くのトークンを使用します。

トークンコストは、一連のスケーリング手順によって計算されます。

画像は最初に、縦横比を維持しながら、2048 x 2048 の正方形内に収まるようにスケーリングされます。

その後、最も短い辺が 768 ピクセル長になるように、画像がスケールダウンされます。

画像は 512 ピクセルの正方形タイルに分割され、これらのタイルの数 (部分的なタイルでは切り上げ) によって最終的なコストが決まります。各タイルのコストは 170 トークンです。

合計コストには、さらに 85 トークンが追加されます。

例: 2048 x 4096 の画像 (高詳細度)

2048 の正方形に収まるように、最初は 1024 x 2048 にサイズ変更されました。

さらに 768 x 1536 にサイズ変更されました。

カバーするには 6 つの 512px タイルが必要です。

合計コストは 170 × 6 + 85 = 1105 トークンです。

画像サイズと、各画像に使用される詳細設定の要因により変わる
- 詳細：低解像度モード
  - API ではより高速な応答を返す
  - 高詳細度を必要としないユースケースに使用する入力トークンを減らすことができる
  - 画像のコストは、画像サイズに関係なくそれぞれ 85 トークン
  - 例: 4096 x 8192 の画像 (低詳細度): コストは固定の 85 トークン
- 詳細: 高解像度モード
  - API では画像をより小さな正方形にトリミングすることでより詳細に表示できる
  - それぞれの正方形では、テキストを生成するためにより多くのトークンを使用する
  - トークンコストは、一連のスケーリング手順によって計算される
    1. 画像は最初に、縦横比を維持しながら、2048 x 2048 の正方形内に収まるようにスケーリングされる
    2. その後、最も短い辺が 768 ピクセル長になるように、画像がスケールダウンされる
    3. 画像は 512 ピクセルの正方形タイルに分割され、これらのタイルの数 (部分的なタイルでは切り上げ) によって最終的なコストが決まる。各タイルのコストは 170 トークン
    4. 合計コストには、さらに 85 トークンが追加される
  - 例: 2048 x 4096 の画像 (高詳細度)
    - 2048 の正方形に収まるように、最初は 1024 x 2048 にサイズ変更される
    - さらに 768 x 1536 にサイズ変更
    - カバーするには 6 つの 512px タイルが必要になる
    - 合計コストは 170 × 6 + 85 = 1105 トークン

リソース

Azure OpenAI は、Azure の新しい製品オファリングです。 Azure OpenAI は、他の Azure 製品と同じように、Azure サブスクリプションにこのサービス用のリソースまたはインスタンスを作成して使用を開始できます。 Azure のリソース管理設計について詳しくご覧いただけます。

製品オファリング
Azure サブスクリプションにこのサービス用のリソースまたはインスタンスを作成して使用を開始できる

デプロイメント

Azure OpenAI リソースを作成したら、API 呼び出しを開始してテキストを生成する前に、モデルをデプロイする必要があります。このアクションは、Deployment API を使用して実行できます。これらの API を使用すると、使用するモデルを指定できます。

OpenAI リソース作成後、モデルをデプロイする必要がある
Deployment API を使用して実行できる
これらの API を使用すると、使用するモデルを指定できる

Azure OpenAI のデプロイの種類

Azure OpenAI では、お客様はビジネスと使用のパターンに合ったホスティング構造を選択できます。このサービスで提供されるデプロイの 2 つの主要な種類は、標準とプロビジョニング済みです。標準にはグローバルデプロイオプションが用意されており、トラフィックをグローバルにルーティングしてスループットを向上させます。実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。ソリューション設計の一環として、2 つの重要な決定を行う必要があります。

データ所在地のニーズ: グローバルリソースまたはリージョンリソース

呼び出しボリューム: 標準またはプロビジョニング済み

Azure OpenAI では、ビジネスと使用のパターンに合ったホスティング構造を選択できる
デプロイの種類には、標準とプロビジョンドの2つがある

グローバルとリージョンのデプロイの種類

標準デプロイの場合、リソース内でグローバルまたはリージョンの 2 種類の構成を選択できます。グローバル標準は、開発と実験で初めて使用する場合に推奨されます。グローバルデプロイでは、Azure のグローバルインフラストラクチャが利用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。グローバルデプロイでは、初期スループットの制限は高くなりますが、待ち時間は高い使用レベルで異なる場合があります。大規模なワークロードを使って変化の小さい待ち時間を必要とするお客様には、プロビジョニング済みスループットを購入することをお勧めします。

グローバルデプロイは、すべての新しいモデルと特徴の最初の場所になります。非常に大きいスループットが必要なお客様は、プロビジョニングされたデプロイオファリングを検討する必要があります。

標準デプロイ
- リソース内で下記の2 種類の構成を選択できる
  - グローバル
  - リージョン
- グローバル標準
  - 開発と実験で初めて使用する場合に推奨
グローバルデプロイ
- Azure のグローバルインフラストラクチャが利用される
- トラフィックは推論要求に最適な可用性を持つデータセンターに動的にルーティングされる
- 初期スループットの制限は高くなりますが、待ち時間は高い使用レベルで異なる場合がある
プロビジョニング済みスループット
- 大規模なワークロードを使って変化の小さい待ち時間を必要とする利用者

デプロイのタイプ

下記のタイプがある

Global-Batch
グローバル標準
Standard
プロビジョニング済み

プロビジョニング済み

プロビジョニング済みデプロイを使うと、デプロイで必要なスループットの量を指定できます。その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニングスループットユニット (PTU) という観点で定義されます。各モデルバージョンペアでは、デプロイして PTU ごとにさまざまな量のスループットを提供するために、さまざまな量の PTU が必要となります。詳しくは、プロビジョニング済みスループットの概念に関する記事をご覧ください。

デプロイで必要なスループットの量を指定
スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニングスループットユニット (PTU) という観点で定義される

Standard

標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。消費した分だけ支払うので、最も早く使い始めることができます。各リージョンで使用できるモデルとスループットは、制限される場合があります。

標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。

選択されたモデルで呼び出し単位の支払いの課金モデルが提供される
消費した分だけ支払うので、最も早く使い始めることができる
各リージョンで使用できるモデルとスループットは、制限される場合がある
バースト性が高い中程度以下のボリューム用に最適化されてる
一貫して使用量が多い利用者は、待ち時間の変動が大きくなる可能性がある

グローバル標準

Global デプロイは、非グローバルデプロイタイプと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバルインフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータセンターに動的にルーティングできます。グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。しきい値はモデルごとに設定されます。詳しくはクォータに関するページを参照してください。大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入することをお勧めします。

Azure のグローバルインフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータセンターに動的にルーティングされる
最大の既定クォータが提供され、複数のリソース間での負荷分散の必要ない
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性がある
しきい値はモデルごとに設定される
大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入を推奨

Global Batch

Global Batch は、大規模で大量の処理タスクを効率的に処理するように設計されています。個別のクォータ、24 時間のターゲットターンアラウンド、Global Standard と比較した場合の 50% 低いコストで要求の非同期グループを処理します。バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信します。 グローバルバッチ要求には、オンラインワークロードの中断を回避する個別のエンキュートークンクォータがあります。

大規模で大量の処理タスクを効率的に処理するように設計されている
個別のクォータ、24 時間のターゲットターンアラウンド、Global Standard と比較した場合の 50% 低いコストで要求の非同期グループを処理する
バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信する
主なユースケース
- 大規模なデータ処理: 広範なデータセットを並列ですばやく分析
- コンテンツ生成: 製品の説明や記事など、大量のテキストを作成
- ドキュメントの校閲と要約: 長いドキュメントの校閲と要約を自動化する
- カスタマーサポートの自動化: 多数の問い合わせを同時に処理して迅速な対応を実現
- データの抽出と分析: 膨大な量の非構造化データから情報を抽出して分析
- 自然言語処理 (NLP) タスク: 大規模なデータセットに対して感情分析や翻訳などのタスクを実行
- マーケティングとパーソナル化: パーソナル化されたコンテンツとレコメンデーションを大規模に生成

実践

Azure OpenAIのセットアップ

アカウント作成

私はAzureアカウントがないので、アカウントから作成します。

Azureにアクセスします
「Azureの利用を開始する」をクリックします
「Azureを無料で試す」をクリックします
ダイアログが表示されるので、今回はGitHubアカウントでサインインをクリックします
「Authorize Microsoft-corp」をクリックします
諸々設定しアカウントが作成されるとポータルが表示されます

OpenAIの作成

ポータルで「リソースの作成」をクリックします
ナビゲーションペインで、「AI + Machine Learning」をクリックします
Azure AI servicesをクリックします
下記を入力し、「次へ」をクリックします
- サブスクリプション：プルダウンから選択
- リソースグループ：新規作成
- リージョン：East US
- 名称：任意の名称を指定
- 価格レベル：Standard S0を指定
ネットワーク画面で「インターネットを含むすべてのネットワークがこのリソースにアクセスできます。」を選択し、「次へ」をクリックします
Tags画面で、「次へ」をクリックします
レビューおよび送信画面で、「作成」をクリックします
しばらくすると完了します