はじめに
Azure OpenAI Serivceを活用したサービスの検討・検証を行っていますが、回答精度の向上には何が起きているかを確認・追跡する必要があり、これには効率よくプロンプトやパラメータ等の蓄積・可視化できるかが重要になってきます。
そこで生成AIに関するログの収集・可視化サービスとしてAzure ML Studioを活用できないかを調査したので、その内容について以下の3部構成で記載いたします。
まず本記事ではMLflowの概要と、そのMLflowを利用した際のAzure ML Studio上での表示について紹介させて頂きます。
(1) Azure ML & MLflowで可視化: Azure ML StudioとMLflow Trackingによるデータ収集・可視化の紹介 (本記事)
(2) PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する
(3) RAG実施時の検索エンジン(Azure AI Search)精度指標の検討 (※記載中)
MLflowとは
MLflowは、機械学習(ML)のライフサイクルを管理・効率化するためのツールやプロセスを提案するオープンソースのMLOpsプラットフォームで以下のコアコンポーネントから構成されています。こちらに記載した通り最近LLM(大規模言語モデル)関連のコンポーネントが追加されるなどLLMOpsへの対応も積極的に進められております。
コンポーネント名 | 概要 |
---|---|
Tracking | MLプロセス中のパラメータ、コードバージョン、メトリクス、成果物について記録し、時間経過に伴う変化を可視化・確認する。 |
Model Registry | モデルのバージョン管理やタグ付け等の機能を提供し、ライフサイクル全体を一元管理する。 |
MLflow Deployments for LLMs (旧称:MLflow AI Gateway) |
LLMモデルの様々なLLMモデル/サービスへのアクセスについて共通的なAPIを提供する。 |
Evaluate | LLMも含めて詳細なモデル分析を行うためのツールで、客観的なモデル比較を容易にする。 |
Prompt Engineering UI | プロンプトの実験、改良、評価、テスト、デプロイのための専用のUIを提供する。 |
Recipes (旧称MLflow Pipelines) |
高品質なモデルを迅速に開発し、本番環境にデプロイすることを可能にするフレームワークを提供する。 |
Projects | MLコードや成果物等を再利用可能かつ再現可能な形でパッケージ化し、他ユーザへの共有やワークフロー構築を可能にする。 |
この中でAzure ML ワークスペースは以下のMicrosoftのページに記載されている通りMLflowと互換性があり、MLflow Tracking Serverとして利用できるようになっています。またAzure ML ワークスペースのWeb UIである「Azure ML Studio」についても同様にMLflowのデータの可視化に対応しています。
しかしながら、Microsoftのドキュメントにはモデル管理と検索クエリのサポートマトリクスは記載されているものの、肝心のMLflowのロギング関係の対応表やどういった形で可視化されるのか等のページが見つけることが出来ませんでした。
そこで今回、MLflowのロギングAPIをメインにAzure ML Studio上での対応とどういった可視化が可能なのかを確認・整理しました。
なお本記事ではMLflowの詳細については述べませんので、実験管理の例やシナリオ等については以下のc60evaporator(Kenta Nakamura)さん記載の記事等をご参照頂ければ幸いです。
MLflowのAzure MLワークスペースへの接続設定
ここではAzure ML上で実行されるVM等ではなく、ローカルやリモート環境からMLflowを用いてAzure MLワークスペースに接続する方法を記載いたします。
最新の内容についてはこちらのMicrosoftドキュメントを参照ください。
1. MLflowとMLflow用のAzure MLプラグインのインストール
以下の通りPythonパッケージmlflow-skinny
とそのMLflow用のAzure MLプラグインazureml-mlflow
をインストールします。
mlflow-skinny
は、mlflow ui
等を持たない軽量のMLflowパッケージで、主に追跡とログ機能を利用する場合にインストールします。
pip install mlflow-skinny azureml-mlflow
2. Azure MLワークスペースへの権限割り当て
Azure MLワークスペースにアクセスしたいユーザ、またはマネージドIDに必要なアクセス許可が割り当てられているかを確認します。
24年4月時点での組み込みロールとしては以下の2つがあります。後者は主にAzure AI Studioを利用する際のものになります。
ただしこの2つはAzure ML上のほぼ全ての権限が付与されてしまうので、より厳密に権限を設定する場合はこちらのページを参考にしながらカスタムロールを作成し割り当ててください。
- AzureML データ科学者
- Azure AI Developer
3. MLflow Tracking URIの取得
MLflow Tracking URIを以下のいずれかの方法で取得します。
- Azure Portalを利用する方法:
- Azure Portalを開きAzure Machine Learning ワークスペースを開きます。
- 「概要」の「要点」欄中に「MLflow 追跡 URI」がありますので、こちらをコピーします。
- 手動で構成する方法:
-
Tracking URIは以下のフォーマットの通りとなっています。各環境に応じて
region
等の値を設定してください。azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}
なおPrivate Linkが有効になっている場合のワークスペースは、こちらとは異なるURIになるので、次項のAzure ML SDKを利用して取得してください。
-
- Azure ML SDK (Python) を利用する方法:
-
Azure ML SDK (
azure-ai-ml
ライブラリ)をインストールします。 -
以下のコードによりTracking URIを取得します。
from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter details of your AzureML workspace subscription_id = '<SUBSCRIPTION_ID>' resource_group = '<RESOURCE_GROUP>' workspace_name = '<WORKSPACE_NAME>' ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name) mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
-
4. Tracking URIの設定
取得したTracking URIを以下のどちらかの方法を用いてMLflowに設定します。
- 環境変数(
MLFLOW_TRACKING_UR
)に設定する - MLflowのAPI(
mlflow.set_tracking_uri()
)により設定する
以上がMLflowをAzure MLワークスペースに接続する方法となります。
なおAzureサービスの認証には内部でPythonライブラリのazure-identity
が利用されており、以下の認証が順番に試行されるので、いずれかの認証方法を設定してください。
- 環境変数: 環境変数で指定されたアカウント情報を読み取り、それを使用して認証を行います。
- マネージド ID: マネージド ID が有効な Azure ホストにアプリケーションがデプロイされている場合、それを使用して認証されます。
- Azure CLI: ユーザーが Azure CLI az login コマンドを使用してサインインする場合、そのユーザーとして認証されます。
- Azure PowerShell: ユーザーが Azure PowerShell の Connect-AzAccount コマンドを使用してサインインする場合、そのユーザーとして認証されます。
- 対話型ブラウザー: 既定のブラウザーを使用してユーザーを対話形式で認証します。
MLflowロギング用メソッドとAzure ML Studio上での表示
次にMLflowロギング用メソッドとAzure ML Studioの何処に表示されるかを以下の表にまとめました。なおMLflowの実行(run)はAzure ML Studio上では「ジョブ」として表示されます。
分類 | メソッド | 概要 | ジョブ詳細画面 | ダッシュボードビュー |
---|---|---|---|---|
パラメータ |
MLflow.log_param()
MLflow.log_params() |
モデル等への入力パラメータの記録 | ・「概要」タブ→パラメータ- | ・比較テーブル→パラメータ- |
メトリクス |
MLflow.log_metric()
MLflow.log_metrics() |
実行結果の評価指標等の記録 ※数値のみ |
・「概要」タブ→メトリック ・「メトリック」タブ |
・比較テーブル→メトリック ・グラフ:折れ線、横棒、散布図 (X軸、Y軸) |
タグ |
MLflow.set_tag()
MLflow.set_tags() |
タグ情報の記録 | ・「概要」タブ→タグ |
・比較テーブル→プロパティ→複数のタグ ・グラフ:各グラフの凡例 |
アーティファクト |
MLflow.log_artifact()
MLflow.log_artifacts() |
ファイルやディレクトリのアップロード | ・「出力とログ」タブ | (なし) |
アーティファクト | MLflow.log_text() | 文字列データをテキストファイルとして保存 | ・「出力とログ」タブ | (なし) |
アーティファクト | MLflow.log_image() | numpy.ndarray等を画像化して保存 |
・「画像」タブ ・「出力とログ」タブ |
・イメージ |
アーティファクト | MLflow.log_figure() | matplotlibやplotlyの図を画像化して保存 |
・「画像」タブ ・「出力とログ」タブ |
・イメージ |
アーティファクト | MLflow.log_dict() | PythonのDict形式のデータをjson、yaml形式で保存 | ・「出力とログ」タブ | (なし) |
アーティファクト | MLflow.log_table() | PythonのDict形式やDataFrame形式のデータをjsonで保存 | ・「出力とログ」タブ |
・比較テーブル→プロパティ→複数のタグ→MLflow.loggedArtifacts ※(ファイル名、タイプのみ出力) |
$\hspace{88em}$ |
こちらのサンプルコードとそのスクリーンショットは以下の通りです。
ちなみにmlflow.start_run()
呼び出し時にnested=True
を設定するかと実行(run
)間に親子関係を設定できます。
サンプルコード
import os
import mlflow
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
os.environ['MLFLOW_TRACKING_URI'] = "<Tracking URI>"
experiment = mlflow.set_experiment("sample experiment")
with mlflow.start_run(run_name="sample run", experiment_id=experiment.experiment_id) as run:
mlflow.log_param("param1", "param-value1")
mlflow.log_params({"param2":9000})
mlflow.log_metric("metric1", 0.3)
mlflow.log_metrics({"metric2":1000})
mlflow.set_tag("tag1", "tag-value1")
mlflow.set_tags({"tag2":"tag-value2"})
mlflow.log_text("# header", "artifact1.md")
mlflow.log_text("<h1>header<h1>", "artifact2.html")
with mlflow.start_run(run_name="child run1", nested=True) as child_run:
mlflow.log_param("param1", "param-value1")
mlflow.log_params({"param2":1000})
mlflow.log_metric("metric1", 0.1)
mlflow.log_metrics({"metric2":2000})
with mlflow.start_run(run_name="child run2", nested=True) as child_run:
array = np.asarray([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dataset = mlflow.data.from_numpy(array, source="data.csv")
mlflow.log_artifact("./artifact1.txt")
mlflow.log_artifacts("./artifact")
mlflow.log_text("log_text", "artifact3.txt")
with mlflow.start_run(run_name="child run3", nested=True) as child_run:
fig, ax = plt.subplots()
ax.plot([0, 1], [2, 3])
mlflow.log_figure(fig, "figure.png")
data = fig.canvas.tostring_rgb()
w, h = fig.canvas.get_width_height()
c = len(data) // (w * h)
img = np.frombuffer(data, dtype=np.uint8).reshape(h, w, c)
mlflow.log_image(img, "image.png")
with mlflow.start_run(run_name="child run4", nested=True) as child_run:
table_dict = {
"inputs": ["What is MLflow?", "What is Databricks?"],
"outputs": ["MLflow is ...", "Databricks is ..."],
"toxicity": [0.0, 0.0],
}
mlflow.log_dict(table_dict, "log_dict.json")
mlflow.log_dict(table_dict, "log_dict.yml")
mlflow.log_dict(table_dict, "log_dict.txt")
mlflow.log_table(table_dict, "log_table1.json")
mlflow.log_table(pd.DataFrame.from_dict(table_dict), "log_table2.json")
スクリーンショット
実験(Experiments)一覧
実験一覧画面ではmlflow.set_experiment()
で指定した名称にて表示されます。
実験名は一意で、存在しない場合は作成、する場合は既存のものが取得される仕様となっています。
実行(Run)一覧
実行一覧ではmlflow.start_run()
の内容が表示されます。
こちらは複数回実行した場合、実行が同じ名称で追加される仕様となっている点に注意してください。
またnested=True
とした実行は階層表示され、複数階層(入れ子)にも対応しています。
ダッシュボードビュー
実行一覧上部に表示されている「ダッシュボードビュー」を押下した場合の表示で、複数の実行結果をグラフやテーブルにて比較することが出来ます。
グラフは表中に記載した通り「折れ線」「横棒」「散布図」に対応しています。
グラフ等の画像データが登録されていた場合、同じファイル名でグルーピングされて一覧表示されます。
数値等のデータについては「比較テーブル」にて比較することが出来、ベースライン(初めに選択した実行)からの変更度合いを確認することが出来ます。
ジョブ詳細 - 概要
ジョブ詳細の概要タブでは、設定したタグやパラメーター、メトリック等が一覧で確認できます。
ジョブ詳細 - メトリック
メトリックタブでは、各メトリックを数値、あるいはグラフで確認することが出来ます。
※子ジョブの情報も表示されますがカスタムグラフの追加は不可だったので、比較する場合は「ダッシュボードビュー」を利用する必要があります。
ジョブ詳細 - 画像
画像タブでは保存したグラフやイメージを確認することが出来ます。
ジョブ詳細 - 出力とログ
出力とログでは、上記の画像も含めた保存したファイルを確認することが出来ます。
またMarkdownやHTMLファイルの表示にも対応しています。
ジョブ詳細 - 子ジョブ
子ジョブではnested=True
として設定したジョブの一覧が表示されます。
まとめ
以上がMLflowとAzure ML Studioの調査結果となります。Azure ML StudioはAzure上で提供されているPaaSでサーバ等を構築することなく簡単にMLflowのTracking Serverを準備することが出来ます。
ただ残念ながらMLflowとAzure ML ワークスペースとの関係が難しく、どう使い始めていいか分からない方が多いと思います。
LLMでも最近マルチモーダル化の進展が激しく、従来のテキストベースのログでは対応しきれないことが想定されます。今回の調査でダッシュボードビューにて画像の一覧表示が可能なことを確認できたので、例えば入力で利用した画像や生成した画像等を一括して確認する、ということが比較的簡単に出来ることが分かりました。
またジョブについても複数の階層を取ることが出来るため、提供するサービスやシステムに応じて実験やジョブの構成等を設計・検討することで効率よく精度の確認や検証を進めることが出来るかと思うので、ぜひご利用についてご検討ください。
もし宜しければ是非以下の関連記事も参照ください。
関連記事
(1) Azure ML & MLflowで可視化: Azure ML StudioとMLflow Trackingによるデータ収集・可視化の紹介 (本記事)
(2) PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する
(3) RAG実施時の検索エンジン(Azure AI Search)精度指標の検討 (※記載中)