Microsoft Defender for Cloud を使って、モデルへのJailbreak攻撃のアラートを出してみます。
基本的には以下の内容に従っています。
Steps
1. 環境設定
Azure Portal で Microsoft Defender for Cloud リソースを開き、メニュー 管理 -> 環境設定 で対象のサブスクリプションを選択します。
「AIサービス」をオンにして、「監視対象」列で「設定」リンクをクリック
疑わしいプロンプトの証拠を有効にする の行をオンにします。今回は「AI 対話式操作に対してデータ セキュリティを有効にする」は特に設定しません。
2. Azure AI Foundryの診断設定
Azure PortalでAzure AI Foundryリソースを開き、メニュー 監視 -> 診断設定 から診断設定を追加します。
※ 多分、必要な設定だと考えているのですが、関係ない可能性もあります。なかなかアラート出なかったので設定したら、アラート出るようになりました。ひょっとしたら、ただアラート出なかったのが遅かったのだけで、この設定関係ない可能性もあります。
取り急ぎ、すべてをLog Analytics ワークスペースへ送信するようにしておきます。
3. Chat 実行
Azure AI FoundryのチャットプレイグラウンドからJail Breakに該当するプロンプトを実行します。
内容は以下から取ってきています。
モデルデプロイで、標準のコンテンツフィルターを割り当て、Jailbreak Attackをブロックするようにしています。以下はカスタムで設定する場合の画面(AI Foudnryのメニュー 保護と管理 -> ガードレールとコントロール の「コンテンツフィルター」タブから設定)。
4. アラート確認
Azure Portal で Microsoft Defender for Cloud リソースを開き、メニュー 全般 -> 概要 で「セキュリティアラート」をクリック
選択されている行が該当のレコードです。右の「すべての詳細を表示」をクリック
アラートの詳細が見られます。右下の「イベントを表示します」をクリック