【Dify x Arize】AIエージェント開発を加速するオブザーバビリティ：評価・モニタリング・改善の実践ガイド

Posted at 2025-09-29

Difyは、信頼性の高いAIアプリケーションをチームが迅速に構築できるよう支援することに全力を注いでいます。この度、エージェントの評価、モニタリング、そして改善のプロセスをさらに容易にするため、私たちはArize社と提携し、同社のオブザーバビリティ（可観測性）ツールである Arize Phoenix と Arize AX をDifyエコシステムに統合しました。

はじめに

Dify は、エージェントAIを構築するためのオープンソースかつモデル非依存のプラットフォームです。ビジュアルワークフロー、完全なRAGナレッジパイプライン、LLMOpsを統合することで、チームがセルフホスト環境またはクラウド環境で本番環境対応のエージェントを迅速にデプロイできるよう支援します。

しかし、開発の速さだけでは十分ではありません。開発したアプリケーションが健全であることを常に把握する必要があります。AIアプリケーションやエージェントが複雑化するにつれ、その精度と効率を維持することは真の課題となります。

オブザーバビリティ（可観測性）の機能を活用することで、開発者は以下のような問いに答えを見いだせるようになります。

エージェントは最も効率的な経路を辿っているか？
選択したモデルは、トークン使用量、レイテンシー、コストの観点から最適か？
検索（Retrieval）のステップは、出力品質にどれだけ貢献しているか？

オブザーバビリティは、本番環境だけの関心事ではありません。開発段階においても、ユーザーに問題が届く前にサイレントエラーを検出し、コストを監視し、LLMとエージェントの振る舞いを理解するために不可欠です。そして、アプリケーションが本番稼働した後は、その可視性がスケールに応じた信頼性を維持する鍵となります。

ここでArize PhoenixとArize AXの出番です。これらのツールは、ワンクリックで実現するオブザーバビリティ、パフォーマンスインサイト、実験ツール、そして評価パイプラインを提供し、開発者が自信を持ってDifyアプリケーションを本番環境に導入することを可能にします。

オブザーバビリティは、開発の速度を低下させるものであってはなりません。それは、ドラッグアンドドロップでワークフローを構築するのと同じくらい、シームレスであるべきです。

Arize PhoenixとDifyの連携

Difyを使用することで、LLM駆動のワークフローを短時間で柔軟に構築できます。しかし、エージェントが複雑になるにつれて、その精度と効率を維持することは真の挑戦となります。予期せぬ動作のトレース、障害のデバッグ、そして品質の実際の改善（単に改善を期待するのではなく）が重要になってきます。そこでPhoenixが活躍します。

Arize Phoenixは、LLMアプリケーション向けのオープンソース・オブザーバビリティ層であり、Difyのワークフローに直接プラグインすることで、エージェントが実際に何をしているかを可視化できます。エージェントが実行する全てのモデル呼び出し、ツール起動、チェインの各ステップが自動的にトレースされるため、プロンプトの微調整がなぜ効果的だったか（あるいは悪化させたか）を推測する必要がなくなります。入力、出力、レイテンシー、メタデータのすべてが表示されるため、ログを探し回ることなく、簡単にデバッグと最適化を行うことができます。

Phoenixの機能は、単なるトレースにとどまりません。収集したトレースへの注釈付け、構造化テストデータセットの構築、カスタマイズされた評価の作成、および変更をリリースする前にエージェントのパフォーマンスを正確に測定するテストの実行も可能です。これにより、Difyで高速開発を続けながら、ワークフローがサイレントに壊れていないという確信を持つことができます。

Phoenix + Dify：エージェント改善のためのユースケース

1. DifyアプリケーションにPhoenixを設定する

DifyのモニタリングタブでPhoenixのクレデンシャルを入力するだけで、トレースの準備が完了します。

2. トレースを収集する

通常どおりDifyエージェントを実行すると、Phoenixがすべての会話とタスクの構造化されたトレースを自動的にキャプチャします。

3. 評価用のデータセットを構築する

Phoenixの画面に移動し、主要なユーザーフロー、厄介なエッジケース、エージェントが苦戦した例などを捉えたトレース情報を選択します。これらの例をデータセットとして保存することで、将来のパフォーマンス変化を評価するための基準点として利用できます。

4. 反復と実験

PhoenixのLLMスパン再生とプロンプト・プレイグラウンドを使用して、作成したデータセットに対してプロンプトの調整やモデル変更をテストします。出力を並べて比較することで、変更が実際の例にどのような影響を与えるかを確認できます。

5. エバリュエーターの定義と実行

実験結果に対してエバリュエーター（正確性、有用性、関連性チェックなど）を設定して実行します。元のデータセットが基準点となり、変更が以前失敗していたケースでの出力を改善しているか、また以前動作していた例でのリグレッション（品質低下）を検出できます。

6. 確信を持ってデプロイする

テスト済みの変更でDifyアプリケーションを更新します。エージェントの成長に合わせ、Phoenixでトレース、評価、改善を継続的に行います。

Arize AXとDifyの連携

Arize Phoenixは、エージェントのトレース、プロンプトやモデル変更のテスト、そして構造化されたオフライン評価の実行といった、迅速な反復開発のための優れたツールです。しかし、LLMワークフローが本番環境でスケールするにつれて、継続的な可視性が必要となる時点が訪れます。

Arize AX は、そのスケーラビリティへの答えです。Phoenixのオブザーバビリティをベースに、本番データに対するライブ評価、時系列でメトリクスを監視するダッシュボード、予期しない変化が発生した際に警告を発するモニター機能を提供します。Arizeは、実環境でのDifyワークフローの状態を常に把握することを支援し、リグレッションの検出、ユーザーへの影響の理解、使用量が増加しても自信を持ってアップデートの確実な展開を容易にします。

Arize + Dify：エージェントのモニタリングと反復開発のためのユースケース

1. DifyアプリをArizeに接続する

DifyのモニタリングタブでArizeのクレデンシャルを入力すると、トレースが自動的に流れ始めます。

2. 本番データをArizeにストリーミングする

ユーザーがDifyワークフローと対話するたびに、Arizeがリアルタイムで構造化されたトレースをキャプチャし、モデル呼び出しの詳細、ツールの使用状況、その他関心のあるメタデータをログに記録します。

3. オンラインエバリュエーターを設定する

オンラインエバリュエーター（精度、安全性、ユーザーの不満度チェックなど）を立ち上げて、手作業でスポットチェックすることなく、ライブトラフィック上でのエージェントの出力を自動的にスコアリングします。

4. ダッシュボードで主要メトリクスを監視する

Arizeのダッシュボードを使用して、評価スコア、トークン使用量、レイテンシー、コストトレンドを一箇所で追跡し、何が変化しているかを視覚的に確認できます。

5. アラートとモニターを設定する

モニターとアラートを設定して、ドリフト（データ分布の変化）、リグレッション、または突然のスパイクがエンドユーザー体験に影響を及ぼす前に検出します。

6. 確信を持って反復開発を行う

ダッシュボードとアラートから得られたインサイトを基に、Difyでプロンプトやモデルの調整を行います。アップデートをデプロイする際も、オンラインおよびオフライン評価を通じてその実環境での影響を追跡し続け、変更がユーザーにとって真に価値あるものであることを確認します。

DifyのAIエージェントを次のレベルへ

オブザーバビリティはスマートな開発を継続するための鍵となります。以下のいずれかのオブザーバビリティツールを無料でお試しください。

Arize Phoenix：迅速さを求め、主に開発と反復のフェーズに注力している場合に最適です。
Arize AX：アプリケーションが本番環境にあり、ライブトラフィックに対する継続的なモニタリングが必要な場合に最適です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up