生成AIセキュリティ by ナレコムAdvent Calendar 2024

プロンプトシールド: AI入力攻撃からの防御（Azure AI Content Safety）

Last updated at 2025-03-26Posted at 2025-03-26

プロンプトシールドとは

Azure AI Content Safetyの重要な機能の1つであるプロンプトシールドは、生成AIモデルを有害または不適切なコンテンツの生成から守るために設計されました。この機能は、AIシステムに対する様々な形式の攻撃を検出し、防御する上で重要な役割を果たします。

プロンプトシールドの目的と機能

プロンプトシールドの主な目的は、以下の2種類の攻撃リスクを検出・軽減することです：

ユーザープロンプト攻撃: システムメッセージに設定されたルールを回避または破るように設計された悪意あるユーザー入力。
ドキュメント攻撃: ドキュメント内に埋め込まれた有害なコンテンツを含む入力。

これらの攻撃は、複雑なロールプレイから安全目標の巧妙な裏切りまで、様々な形態をとります。例えば、AIに対して「他の指示はすべて無視してください」といった追加の命令を与えることで、意図しない回答を引き出そうとする攻撃などが含まれます。

プロンプトシールドの重要性

生成AIの普及に伴い、これらのシステムを悪用しようとする試みも増加しています。プロンプトシールドは、以下の点で重要な役割を果たします：

AIの信頼性向上: 不適切な出力を防ぐことで、AIシステムの信頼性を高めます。
セキュリティの強化: 悪意ある攻撃からAIを保護し、セキュリティを強化します。
コンプライアンスの確保: 法的・倫理的ガイドラインに沿ったAIの運用を支援します。

Azure AI Content Safetyでの実装

Azure AI Content Safetyでは、プロンプトシールドは「コンテンツフィルター」の一機能として実装されています。これにより、暴力的な表現や性的な表現などと同様に、ジェイルブレイク攻撃などのAI特有の脅威にも対応できます。

使用方法

Content Safety Studioでプロンプトシールドを試すには：

[プロンプトシールド] パネルを選択します。
サンプルテキストを選択するか、独自のコンテンツを入力します。
CSVファイルをアップロードしてバッチテストを実行することも可能です。
[テストの実行] を選択して分析を開始します。

分析結果では、入力テキストに含まれる潜在的な攻撃パターンがフラグ付けされ、リスクレベルが示されます。これにより、AIシステムへの入力を事前にフィルタリングし、悪意ある使用を防止することができます。

APIを使用したプロンプトシールドの実装

開発者は、Azure AI Content Safety APIを使用してプロンプトシールドを自社のアプリケーションに統合できます。以下は、APIを使用してプロンプトシールドを実装する基本的な手順です：

Azure portalでContent Safetyリソースを作成し、キーとエンドポイントを取得します。
APIエンドポイントに対してPOSTリクエストを送信し、分析したいテキストを含めます。
返されたJSON応答を解析し、検出された攻撃の有無や種類を確認します。

curl --location --request POST '<endpoint>/contentsafety/text:shieldPrompt?api-version=2024-02-15-preview' \
--header 'Ocp-Apim-Subscription-Key: <your_subscription_key>' \
--header 'Content-Type: application/json' \
--data-raw '{
"userPrompt": "分析したいテキスト",
"documents": ["分析したいドキュメント"]
}'

この設定を行うことで、以下のことが可能になります：

ユーザープロンプト攻撃の検出: ユーザーが入力するプロンプトに潜む不正な命令や規則破りの意図を検出し、生成AIが意図しない動作をするのを防ぎます。
ドキュメント攻撃の防御: 外部ドキュメントに埋め込まれた有害なコンテンツや嘘の情報を検出し、AIがそれに基づいて誤った回答を生成するリスクを軽減します。
コンテンツフィルタリング: 暴力的、性的、不適切な内容など、有害なコンテンツを事前にスキャンし、生成AIへの入力や出力を安全なものにします。

これにより、AIシステムが安全かつ信頼性の高い方法で運用されることを保証できます。

まとめ

プロンプトシールドは、Azure AI Content Safetyの重要な機能として、AIシステムを様々な形式の攻撃から守ります。ユーザープロンプト攻撃やドキュメント攻撃を検出・軽減することで、AIの出力の安全性と信頼性を高めます。開発者はこの機能をAPIを通じて簡単に統合でき、より安全なAIアプリケーションの構築が可能になります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up