はじめに
MLOps(LLMOps、生成AIOps) Advent Calendar 2024の25日目です。
Azure AI Foundry(旧Azure AI Studio)の機能で人気の高いプロンプトフローをデプロイし、監視する方法を紹介します。
プロンプトフローを開発するまでは他の記事で紹介されていますのでこちらを参照ください。
本記事では、プロンプトフローをデプロイしてから監視するまでを扱います。
プロンプトフローの監視
プロンプトフローでは、デプロイした後、生成した回答が想定している品質を維持しているか監視する仕組みがあります。
対応しているメトリックとメトリック算出に必要なデータは次の通りです。
メトリック | Prompt | Completion | Context | Ground truth |
---|---|---|---|---|
一貫性 | 必須 | 必須 | - | - |
流暢性 | 必須 | 必須 | - | - |
現実性 | 必須 | 必須 | 必須 | - |
関連性 | 必須 | 必須 | 必須 | - |
類似性 | 必須 | 必須 | - | 必須 |
プロンプトフローの推論データ収集
メトリック算出に必要なデータのPrompt、Completion、Contextは簡単に自動収集できます。プロンプトフローの入出力設定でPrompt、Completion、Contextに該当するchat_input(=Prompt)、chat_output(=Completion) とcontext(=Context) の設定を行い、
デプロイ時に推論データ収集のトグルをオンにし、有効化します。
デプロイが完了したら、テストからチャットを試してみましょう。監視用のログが記録されます。
デプロイ完了後、推論させて収集したデータはデータアセットで確認できます。データアセットには、それぞれ<endpoint name>-<deploy name>-model_inputs、
<endpoint name>-<deploy name>-model_outputs の命名規則で作成されており、
model_inputs にchat_input(=Prompt)、model_outputs にchat_output(=Completion) とcontext(=Context) が出力されています。
監視ジョブの実行
質問にchat_input(=Prompt)、回答にchat_output(=Completion) を設定し、評価で使用するGPTモデルを選択します。なお、評価で使用するGPTモデルは決まっており執筆時点では以下が対応しています。
- GPT-3.5 Turbo
- GPT-4
- GPT-4-32k
最新の情報はドキュメントを確認してください。
監視ジョブの実行結果確認
監視ジョブ作成後は、毎日実行されてトークン数の使用量と生成品質メトリクスが計算されます。トークンの使用状況(Token usage)のタブではトークン数の使用量が確認できます。
生成品質(Generation quality)タブでは、生成品質メトリクスを確認することができます。