Bedrockのガードレール機能
『リアルタイムでコンテンツをフィルタリングし、不適切な内容が排除させることができる』
これにより、生成AIが意図しない形で
- 有害な情報
- 倫理的な問題を含んだコンテンツ
を作成するリスクが低減します。
この機能をを活用することで、
- コンテンツの安全性
- 倫理的なガイドラインの遵守
を管理することができます。
フィルタリング
『特定のトピックや表現をフィルタリングするポリシーを設定することができる』
これにより、生成AIモデルが特定の話題について、結果を出力しないように設定できます。
コンテンツのフィルタリング基準
各企業やユーザーの要件に応じて、カスタマイズ可能です。
ガードレール機能の適用タイミング
ユーザー入力の受付時
- ユーザーからのリクエストが事前に設定されたポリシーに違反していないかを評価します。
- 不適切な入力が検出された場合、モデルへのリクエストは処理されず、代わりにエラーメッセージが返されます。
モデルの応答時
- モデルが生成した応答がポリシーに違反していないかをチェックします。
- 違反が検出された場合、応答がブロックされたり、特定の情報がマスキングされます。
自動検出後のアクション設定
ガードレール機能は、機密情報を自動的に検出し、次の2つのアクションを実行することができます。
PIIのマスキング
- [NAME-1]
- [EMAIL-1]
のような識別子にマスクすることで、機密情報を直接表示せずに出力します。
PIIは、個人を特定できる情報です。例えば、名前や電話番号、メールアドレスなど。
レスポンスのブロック(エラーメッセージ)
事前に指定されたメッセージを返す ように設定できます。
これにより、出力全体がブロックされ、例えば
- 「このレスポンスはプライバシー保護のために表示できません」
などのメッセージが返されます。