Amazon Bedrock ガードレールを試してみた

Posted at 2025-05-20

久しぶりに仕事が技術領域へ戻ってきたので、リハビリも兼ねてBedrockまわりを触ってみました。
とても簡単な内容ですが、主に私のモチベーションのために書いています。

試したこと

まずはNovaを有効化します。
Amazon BedrockのModel Catalogより、対象のモデルを選んで「モデルアクセスをリクエスト」を選択します。

そうするとすぐにモデルが利用可能になります。
今回はNova Microを利用してみます。

次に、プレイグラウンドで実際につかってみます。
ここではGUI上でチャットUIを試すことができます。

試しにNovaについて、猫にもわかるように質問してみました。

折角回答してくれたのですが、残念ながら私は猫ではなかったので説明が分かりませんでした...。

普通に回答してもらいました。
結構しっかり記述されていますね。

Amazon Bedrockにはガードレール機能があります。
生成AIアプリケーションの安全性と信頼性を高めるための機能で、ユーザー入力やモデル出力に対して有害なコンテンツや誤情報を検出・制御する仕組みが提供されています。

設定画面では、フィルターを設定できます。
一般的にフィルタすべき項目に対して、それぞれ文字/画像、ガードのアクション、強度を決めることができます。

また、プロンプト攻撃に対しても同様に設定することができます。

トピック指定もできます。私の名前を入れてみました。

他にもワードでの指定ができるようです。
すでにブラックリストフレーズなどが揃っているシーンでは有効かもしれません。

さて、実際にプロンプトを入力して、ガードレールが機能するかテストしてみます。

まずは、IPアドレスをプロンプトに含めてみました。

IPアドレスを含めることで、PII (Personal Identifiable Information)の項目でブロックされました。
PIIにはほかにもクレジットカード番号や住所、電話番号などがあり、個人情報の入力を防げそうですね。

今度は、プロンプトアタックを試してみました。
これは、生成AIに対して悪意ある入力を通じてAIの動作を意図的に変更させる手法のことです。
悪用されると良くないので表示はマスクしています。

3カ所でブロックされています。いろいろと良くないようです。

このように、ガードレールでは安全に生成AIを使う上で防ぎたいプロンプトをブロックすることができました。

よく耳にしそうな「生成AIって便利そうだけど、安全なの？」に対応できるひとつの手段になりそうですね。