Azure AI Studioを触ってみる

Last updated at 2024-06-09Posted at 2024-06-05

Azure AI Studioことはじめ

Azure AI StudioがGenerally Availableになりました。Buildの発表からもこれからはAIのプロジェクト向けの開発環境はこちらを使ってね感がひしひしと感じられます。

でもマイクロソフトの新しい技術にありがちで、実際の使ってる人の触ってみたレポがあまりないので、ちょうどTrainingがあったので触ってみます。

いきなりドキュメントを読むのが辛い人にはTrainingは最高のスタートですね！

参考リンク

Azure AI Studioとは

参考リンクからの抜粋。

AI プロジェクトを作成して管理する:Azure AI Studio では、すべての AI プロジェクトに対して一元化されたハブが提供されるため、リソースの管理、チームメンバーとの共同作業、ワークフローの効率化を行うことができます。

生成 AI アプリケーションを開発する:コンテンツを生成したり、独自のプロンプトフローを構築したりできるアプリケーションの開発が目的の場合は、Azure AI Studio の生成 AI 機能が不可欠です。

使用可能な AI モデルを調べる:Azure AI Studio のモデルカタログで、OpenAI、Microsoft、Hugging Face などのさまざまな AI モデルを試します。

検索拡張生成 (RAG) を活用する:取得と生成の力を組み合わせる必要があるプロジェクトの場合、Azure AI Studio の RAG 機能により、生成されたコンテンツの品質と関連性が向上します。

AI モデルを監視し評価する:Azure AI Studio には、プロンプトフローと AI モデルの評価と監視のための堅牢なツールが用意されており、望ましいパフォーマンスメトリックを確実に満たします。

Azure サービスと統合します。AI アプリケーションが他の Azure サービスとシームレスに連携する必要がある場合、Azure AI Studio は簡単に統合できるため、複雑で多面的なプロジェクト向けに多用途に使用できます。

責任を持ってビルドする:Azure AI Studio では、AI の責任ある使用に重点を置いており、アプリケーションが倫理的な標準とベストプラクティスに準拠していることを確認するためのガイダンスとツールを提供します。

最低限以下のようなものがデプロイされる。

コアとなる AI ハブリソースに加え、補助的なサービスを提供するその他の Azure リソースが作成されます。次のような方法があります。

ストレージアカウント。AI プロジェクトのデータがセキュリティで保護された方法で格納されます。

キーコンテナー。外部リソースへのアクセスに使われる資格情報と、その他の機密性の高い値がセキュリティで保護されます。
コンテナーレジストリ。AI ソリューションで使われる Docker イメージを格納します。

Application Insights リソース。使用状況とパフォーマンスのメトリックを記録します。

アプリケーションに生成 AI モデルを提供する Azure OpenAI Service リソース。

LLMアプリの開発ライフサイクル

①目標を定義する
②サンプルデータセットを収集
③基本的なプロンプトを作成する
④フローを設計する
⑤実験する
⑤評価・調整する
⑥デプロイする
⑦監視する

これらのことがAzure AI Studioから全部できるようになるらしい。

先に結論

個人的に触ってみた感触だとStudio自体はGAになったかもしれないが、2024年6月現在では個別の機能がまだPreviewらしく不安定さを感じる。また、個々のStudioやAzure Portalから実施するより機能が限られている。

このStudioからAI開発の全てができる、というコンセプトはわからないではないが、精度を追い求めるとカスタマイズが必要になり、そうするとGUIからだと辛い気がする。結局インデクシングの際にキーワード抽出や翻訳やいろんな前処理・エンリッチメント処理を挟む必要がある。そういう意味でRAGをどう組むかはデータ次第だけど、そのうえでLangChainのようなライブラリからRAGを使うのが良い気がする。

やっぱりファイルアップロードしただけで、はいRAGできあがりーという甘い世界ではないのだ。

ただ、トレースログが見やすかったり、Prompt FlowからRAGの評価が簡単にできたり、使ってみたいなという機能もあった。Azure AI Studioの外で個々にリソースを作って、それを後から接続することもできるらしいので、Prompt FlowのRAG Evaluationなどポイントを絞って利用するのが今の時点ではベストだと考える。

とりあえず触ってみる

まずはAll Hubs > AIHubを作る。Azure AI Searchとの接続は後回し。

Location Helperというのがあり、Modelを選択するとどのLocationにすればいいかがわかるようになっていた。便利だが、DallE-3tとかが載ってない。

最終的にこんな感じのリソースが作られる。

Portalから見るとこんな感じ。（AI SearchやMachine Learningは後で接続した・されたもの。）

次は何はともあれプロジェクトを作る。

DeploymentsからモデルをDeployする。この辺Azure OpenAI Studioに似てる、というかもうそのままでは。

もうAzure Open AI Studioはいらない子なのか？という思いがよぎる。

Prompt Flowで各リソースを組み合わせて開発してみる

Azure AI Studioからプロンプトフローという技術でMachine Learningと組み合わせてLLMアプリ開発を行う。Machine Learning Studioの機能が合体しているぽい。（あまりMachine Learningは使ったことがないので想像です。）

Prompt Flow

Prompt Flow＝処理パイプラインのようにとらえればいい。
Prompt Flowの種類は以下の通り。

標準フロー: 一般的な LLM ベースのアプリケーション開発に最適で、多目的に使用することができるさまざまなツールを提供します。

チャットフロー: 会話型アプリケーション向けに設計されており、チャット関連機能のサポートが強化されています。

評価フロー: パフォーマンス評価に重点を置き、以前の実行に関するフィードバックを通じて、モデルまたはアプリケーションの分析と改善をすることができます。

利用可能なツールは以下の通り。

LLM ツール:大規模言語モデルを使用して、カスタムプロンプトを作成することができるようにします。

Python ツール:カスタム Python スクリプトの実行を許可します。

プロンプトツール:複雑なシナリオまたは他のツールとの統合用に、文字列としてプロンプトを用意します。

独自カスタムツール

外部ツールを扱うためにはConnectionから必要なリソースを定義しておく。

New Connectionを見るとこれらのものが接続できる。

裏ではコンピューティングリソースとランタイム（必要なパッケージとライブラリ）環境が自動的に起動するらしい。

評価

Prompt Flowの評価機能により、LLMアプリのパフォーマンスを評価できる。「LLM 予測と期待される応答または "グラウンドトゥルース" 応答を比較して正確性と関連性を測定」とある通り、よくある事前定義したQ&AとLLMアプリの応答を比較するということができる。

以下のような項目を評価できる。

groundedness: LLM アプリケーションの出力と入力ソースまたはデータベースの一致度を測定します。
"関連性": LLM アプリケーションの出力が与えられた入力にどの程度関連しているかを評価します。
"一貫性": LLM アプリケーションのテキストの論理フローと読みやすさを評価します。
"流暢性": LLM アプリケーションの出力の文法的および言語的な正確性を評価します。
"類似性": LLM アプリケーションの出力とグラウンドトゥルースの間のコンテキストとセマンティックの一致を定量化します。

Prompt Flowを触ってみる

ちゃんとしたレポートは以下のような素晴らしい記事を参照してください。

いろんなTemplateがあるが、まずはStandardを触ってみる。

例えばこんなエンティティ抽出処理を実行したい。
2つのInputとエンティティ抽出と1つの出力がある。（NERとはNatural Entity Recognitionの略らしい。）

Prompt FlowはGUIエディターから開発できる。

裏ではYaml形式で書かれている。OpenAIにはエンティティタイプとしてjob-titleを抽出してと投げている。

id: template_standard_flow
name: Template Standard Flow
inputs:
  entity_type:
    type: string
    is_chat_input: false
  text:
    type: string
    is_chat_input: false
outputs:
  entities:
    type: string
    reference: ${cleansing.output}
nodes:
- name: NER_LLM
  type: llm
  source:
    type: code
    path: joke.jinja2
  inputs:
    deployment_name: gpt-4o
    temperature: 1
    top_p: 1
    max_tokens: 256
    entity_type: ${inputs.entity_type}
    text: ${inputs.text}
  provider: AzureOpenAI
  connection: ai-simaaihubai8261782448839798_aoai
  api: chat
  module: promptflow.tools.aoai
  use_variants: false
- name: cleansing
  type: python
  source:
    type: code
    path: echo.py
  inputs:
    entities_str: ${NER_LLM.output}
  use_variants: false
node_variants: {}
environment:
  python_requirements_txt: requirements.txt

実行してみるとエンティティが抽出された。

裏ではVMが起動しているらしい。1時間アイドルでシャットダウンする。

ボタン1つでWebにEndpointをDeployもできる。これはVMが立つらしい。

DeployしてEndpointを確認する。

キー認証がついている。Swagger Endpointとかもあるらしい。（キー認証があるため、普通に叩いたら拒否された。。後で開く。）

デプロイしたエンドポイントに対してのテスト機能とか。

Endpointにリクエストを投げるためのサンプルコードとか。

モニタリング機能もある。下で作ったEvaluationとも連携できるぽい。

ログ監視もある。

でもこのDeployしたEndpointのポータルには停止ボタンがないんだけど、、起動しっぱなし？？Azure Portalを見てもVMは立っていなかった。裏でAzure側が管理しているらしい。

Prompt Flowの評価

評価フローを構築できる。テストデータが必要ぽい。

テストデータはDownload data templateからダウンロードし、超適当に作ってみた。jsonl形式？というらしい。CSVでもいいぽいけど。

{"question":"The nurse is looking after patients","answer":"nurse"}
{"question":"The teacher is giving students lessons","answer":"teacher"}

どんな指標を計測するかをチェック。今回は単純なのでRAGはなし。

評価が出た。ふむふむ。なんとなくやり方は理解。

Prompt FlowにRAGを組み込む

まずはEmbedding用モデルをDeploy。

Azure AI Searchを接続。

Project > Dataから自分のデータをアップロード。

Project > IndexesからAzure AI Searchへインデックスデータを格納。Azure AI SerchのImport and VectorizeをAzure AI Studioからやっているイメージか。

（でもPreviewだったり、結局スキルとか使えないし、Portalからやるより機能が限られているでなんだかなーという気分になったのは否めない。OverlapとかChunkも詳細設定できないしね。こういう細かいのをやりたければプログラム書いたり、それぞれ個別のStudioやPortalを使えということなんだろうなと感じる。）