Azure Content FilterでAzure OpenAIの入出力をフィルタリングする

Last updated at 2024-06-09Posted at 2024-06-09

もともとはAzure AI Studioのほうでまとめていたが、長くなってきたので別にまとめる。

Azure Content Filter

公式ドキュメントはこちら。

Filterを定義する

Azure OpenAI Studioから作成する。

フィルタリング対象はプロンプト＝Inputと入力候補＝Outputの両方を定義できる。

4 つの重大度レベル (安全、低、中、高) の 4 つのカテゴリ (憎悪、性的、暴力、自傷行為) をカバー。画面の嫌悪は訳が微妙だが、差別とかヘイトスピーチ的な。対象は公式サイトによるとテキスト、画像、画像＋テキストらしい。フィルタリングの分類器はMicrosoftの機械学習による、カスタマイズは申請を出せばできるらしい。

で、ちょっと直感に反するがLowにすると一番厳しくできるらしい。Highにすると緩くなってしまう。うーん。

その他追加で以下４項目が設定可能。
上の２点はプロンプトインジェクション対策で、下の２点は著作権保護的な意味合いを持つ。下２つについてはMicrosoftのCustomer Copyright Commitmentを保証するもの。（下に詳細アリ。）

脱獄攻撃に対するプロンプトシールド
間接的攻撃に対するプロンプトシールド
保護された素材テキスト
保護された素材コード

Block List。Profanity というのがビルトインである、Profanityとは冒涜ということらしい。

フィルタリングを非同期でするか。

ここが若干注意で、フィルタリングを非同期にすると、処理が早くなる一方で、ブロックされるべき内容が表示されてしまうことがあるらしい。仕事で使うならこれはなしかなぁ。ストリーミングの場合はフィルタリングが完了した部分がある程度の長さになったら返却されるので通常は同期らしい。

お客様は、この機能により待機時間が短縮される一方、モデル出力の小さなセクションの安全性とリアルタイムの審査とのトレードオフになることに注意が必要があります。コンテンツフィルターは非同期で実行されるため、コンテンツモデレーションメッセージとポリシー違反シグナルに遅延が生じます。つまり、通常はすぐにフィルター処理されるはずの有害なコンテンツの一部のセクションが、ユーザーに表示される可能性があります。

適用して試してみる

作ったContent FilterはModelのDeployに対して適用できる。

試しにシステムメッセージで差別的な発言をしろ、という内容を入力してプロンプトを投げると会話を拒否された。

その場合、400エラーになるか（ストリーミング）、finish_reasonがcontent_filterになる（非ストリーミング）。

Block List

ちなみにカスタムのBlock Listはこんな風に定義できる。正規表現が一応使える。

Customer Copyright Commitmentとは

MicrosoftはAzure OpenAIを使うなら、出力コンテンツについて著作権侵害の責任はMicrosoftがとる、ただし顧客（Azure OpenAIを利用したサービスの提供者）は軽減策をとる必要があると述べている。

出力コンテンツに関連する特定のサードパーティの知的財産権に関するクレームから顧客を保護するための Microsoft の義務を説明するものです。クレームの対象が Azure OpenAI Service (または顧客が安全システムを構成できる他の対象製品) から生成された出力コンテンツである場合は、カバレッジを受けるために、顧客は出力コンテンツを提供するオファリングで Azure OpenAI Service ドキュメントで必要とされるすべての軽減策を実装している必要があります。

こちらのほうが直接的でわかりやすい。これはCopilotだが、Azure OpenAIも同じかな。

具体的に何をすればいいのか

詳しくはこちらに記載がある。

おおむね以下のようなことが顧客に求められている。

著作権保護のメタプロンプトを入れる（Microsoftがテンプレートを提供）
サードパーティコンテンツを検出するようなテスト（レッドチーミング）を実施すること
コード、テキストの生成にContent Filterを利用すること
※画像と音声についてはなにもないらしい。

プロンプトインジェクションとは

これは比較的よく知られているやつ。
生成AIに対して誤作動を起こさせるようなプロンプトを与えて、意図しない内部情報とかを出力させる。

間接プロンプトインジェクションとは

要はAIソリューションに対して直接のプロンプトのインプットではなく、RAGの情報源、アップロードするファイル等に攻撃情報を仕込む手口らしい。なるほど。。。

Azure Content Safetyとの違い

Content Filterに似て、Content Safetyというのがある。

詳細はこちらのような素晴らしいサイトにお願いいたします。

Content FilterはAzure OpenAI Studioから作成する、AOAIの一部であるのに対して、Content SafetyはContent Safety Studioという独立した機能になるので、明確に違うサービス。Content Safetyは作成したフィルターに対してAPI経由でフィルター処理を要求できる。

　
機能的にはContent Filterと似ている。
カスタムカテゴリというので、独自のフィルターを作成できるのが加わっている。

なので、Azure OpenAIのモデルに対してフィルターをかけるならContent Filter、それ以外であればContent Safetyとなるか。Microsoftのサイトに以下のようにあるように、API経由で処理することになる。

ユーザーが生成した製品カタログなどのコンテンツをモデレートするオンラインマーケットプレース。

ユーザーが生成したゲームの成果物とチャットルームをモデレートするゲーム会社。

ユーザーによって追加された画像とテキストをモデレートするソーシャルメッセージングプラットフォーム。

コンテンツに対する一元的なモデレーションを実装するエンタープライズメディア企業。

学生および教育者にとって不適切なコンテンツをフィルター処理して除外する K-12 教育ソリューションプロバイダー。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up