2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Amazon Bedrock GuardrailsでDenied topicを試す

Last updated at Posted at 2024-09-30

はじめに

Amazon Bedrockを利用したチャットボットを運用する際に、有害なユーザー入力やモデルの出力を防ぎたい場合があります。例えば、チャットボットが個人情報を取り扱う場合、その情報が漏洩しないようにするために、個人情報を含む入力をフィルタリングする必要があります。また、チャットボットが不適切な内容を返答しないようにするために、不適切な内容を含む入力をフィルタリングする必要があります。Amazon Bedrock Guardrailsは、このような問題を解決するためのツールです。この記事では、Amazon Bedrock Guardrailsを使って、Denied topic(拒否されたトピック)を試してみます。

Amazon Bedrock Guardrailsとは

Amazon Bedrock Guardrailsは、望ましくない有害なコンテンツを回避し、プライバシー保護のために機密情報を削除またはマスクするように設定できる以下のフィルタリングポリシーを提供する仕組みです。グランドチェックは、モデルの出力が情報ソースに基づいて適切であるかどうかやユーザーの入力に関連するものでるかをフィルタリングできるため、ハルシネーションの検出に使用できます。

  • コンテンツフィルター
  • 拒否されたトピック
  • 単語フィルター
  • 機密情報フィルター
  • コンテキストのグランドチェック

ただし、以下のページに書かれているとおり、Amazon Bedrock Guardrailsは英語のみをサポートしています。そのため、他の言語のテキストコンテンツを評価すると信頼性の低い結果になる可能性があります。

Important
Amazon Bedrock Guardrails supports English-only. Evaluating text content in other languages can result in unreliable results.

参考情報

ガードレールを作成する

Denied Topicsを作成する

Amazon Bedrock のコンソールメニューから Guardrails を選択し、Create guardrail を選択します。Step 1: Provide guardrail details では、以下のように入力します。デフォルトでは、プロンプトとレスポンスに対するブロックメッセージは同じものが使われますが、それぞれ異なるメッセージを指定することもできます。ここでは、どちら側でブロックされたのかが分かるように、
Apply the same blocked message for responses のチェックを外し異なるメッセージを指定しています。

項目名 入力内容
Name(任意の名称) DeniedTopicTest
Description(任意の説明) Denied Topic を英語と日本語でそれぞれ試す。
Messaging for blocked prompts (ガードレールがユーザープロンプトをブロックする場合に表示するメッセージ) その質問には回答できません。
Messaging for blocked responses (ガードレールがモデルの応答をブロックする場合に表示するメッセージ) 回答に拒否トピックが含まれるため回答できません。

Amazon Bedrock Guardrails: Guardrails作成画面 step 1

Step 2: Configure content filters は入力をスキップします。

Step 3: Add denied topics では、以下のように Denied Topics を追加します。後述の例のように、いくつかの例を試します。

Amazon Bedrock Guardrails: Guardrails作成画面 step 3

以下のステップは入力をスキップします。
Step 4: Add word filters
Step 5: Add sensitive information filters
Step 6: Add contextual grounding check

例1: 英語でトピックを定義

Amazon Bedrockについて回答を拒否するように、このような内容でdenied topicsに設定しました。

Definition
Amazon Bedrock is a fully managed service that offers a choice of high-performing foundation models from leading AI companies like Anthropic, Cohere, Stability AI, and Amazon through a single API.
Sample phrases
For what chan I use the Amazon Bedrock?
What is Amazon Bedrock?

Amazon Bedrock Guardrails: Guardrails作成画面 step 3 - 例1

英語で質問する

What are some ways to build a RAG using AWS resources? という質問に対し、回答にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:英語で作成したトピックに英語で質問する例-1

What are the different ways to build a RAG using Bedrock? という質問に対し、プロンプト(質問)にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:英語で作成したトピックに英語で質問する例-2

日本語で質問する

日本語で質問してみます。

AWSのリソースを使ってRAGを構築するには、どのような方法があるか?という質問に対し、回答にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:英語で作成したトピックに日本語で質問する例-1

Bedrockを使ってRAGを構築するには、どのような方法があるか?という質問に対し、プロンプト(質問)にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:英語で作成したトピックに日本語で質問する例-2

例2: 日本語でトピックを作成

つづいて、日本語でdenied topicを作成します。

Definition
Amazon Bedrock は、Anthropic、Cohere、Stability AI、Amazon などの大手 AI 企業の高性能な基盤モデルを単一の API を通じて選択できる、完全に管理されたサービスです。
Sample phrases
Amazon Bedrockは何に使用できますか?
Amazon Bedrockとは何ですか?

Amazon Bedrock Guardrails: Guardrails作成画面 step 3 - 例2

英語で質問する

What are some ways to build a RAG using AWS resources? という質問に対し、回答にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:日本語で作成したトピックに英語で質問する例-1

What are the different ways to build a RAG using Bedrock? という質問に対し、プロンプト(質問)にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:日本語で作成したトピックに英語で質問する例-2

日本語で質問する

AWSのリソースを使ってRAGを構築するには、どのような方法があるか?という質問に対し、回答にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:日本語で作成したトピックに日本語で質問する例-1

Bedrockを使ってRAGを構築するには、どのような方法があるか?という質問に対し、プロンプト(質問)にBedrockが含まれるため回答がブロックされました。

Amazon Bedrock Guardrails:日本語で作成したトピックに日本語で質問する例-2

例3-1: 拒否トピックをすり抜けてしまう(英語のdenied topic)

これまでに挙げた例は、いずれも期待したとおりの動作でした。しかし、以下の例では、拒否トピックをすり抜けてしまうことがありました。
競馬について回答を拒否するように、このような内容でdenied topicsに設定しました。Definitionの内容はWikipeidaを参考にしました。

Definition
Horse racing is a race in which horses ridden by jockeys compete and a gambling game in which people predict the order of finish. Horse racing is held as a set event with the sale of winning tickets.
Sample phrases
What is the Horse racing?
I want to know the history of horse racing.

Amazon Bedrock Guardrails: Guardrails作成画面 step 3 - 例3-1

日本語で質問する

競馬とはなんですか?という質問に対し、プロンプトと回答ともに競馬が含まれるにもかかわらず、両者ともブロックされませんでした。

Amazon Bedrock Guardrails:英語で作成したトピックに日本語で質問する例-1

騎手が乗った馬により競われる競走競技で、その着順を予想する遊技はなんと呼ばれますか?という質問に対し、回答に競馬が含まれるにもかかわらず、ブロックされませんでした。

Amazon Bedrock Guardrails:英語で作成したトピックに日本語で質問する例-2

例3-2: 拒否トピックをすり抜けてしまう(日本語のdenied topic)

競馬について、日本語でdenied topicを作成します。Definitionの内容はWikipeidaを参考にしました。

Definition
競馬(けいば、英: Horse racing)は、騎手が乗った馬により競われる競走競技、および、その着順を予想する賭博である。イギリスを発祥とする近代競馬は多くの国々で開催されており、その多くは勝馬投票券(馬券)の販売とセットの興行として行われている。
Sample phrases
競馬の歴史を知りたい。
競馬とは何ですか?

Amazon Bedrock Guardrails: Guardrails作成画面 step 3 - 例3-2

日本語で質問する

Sample phrasesに含まれる競馬の歴史を知りたい。という質問に対し、プロンプトと回答に競馬が含まれるにもかかわらず、ブロックされませんでした。

Amazon Bedrock Guardrails:日本語で作成したトピックに日本語で質問する例-1

もう一度同じ質問をしたところ、今度はブロックされました。日本語が正式にサポートされていないためか結果が安定しないようです。

Amazon Bedrock Guardrails:日本語で作成したトピックに日本語で質問する例-2

競馬とは何ですか?という質問に対し、プロンプトと回答に競馬が含まれるにもかかわらず、ブロックされませんでした。

Amazon Bedrock Guardrails:日本語で作成したトピックに日本語で質問する例-3

コードで書いてみる

以下のコードは、コマンドライン引数で入力されたテキストに対して、Amazon Bedrock Guardrailsを使って回答を生成するものです。
Converse APIであれば、guardrailConfigを指定することでGuardrailを適用できます。

app.py
import json
import logging
import sys

import boto3
from botocore.exceptions import ClientError

logging.basicConfig(format="%(asctime)s [%(levelname)s] %(message)s", level=logging.INFO)
logger = logging.getLogger(__name__)


def get_bedrock_client():
    """Bedrock クライアントを取得する"""
    return boto3.client(service_name="bedrock-runtime", region_name="us-east-1")

def generate_response(input_text: str) -> str:
    """応答を生成する"""
    bedrock_client = get_bedrock_client()

    messages = [{"role": "user", "content": [{"text": f"<text>{input_text}</text>"}]}]

    modelid = "anthropic.claude-3-5-sonnet-20240620-v1:0"

    inference_config = {
        "temperature": 0,
        "maxTokens": 500,
        "topP": 0.99,
    }

    guardrail_id = "xxxxxxxxxxxx" # Guardrail IDを指定する
    guardrail_version = "DRAFT"   # Guardrail Versionを指定する

    guardrail_config = {
        "guardrailIdentifier": guardrail_id,
        "guardrailVersion": guardrail_version,
        "trace": "enabled"
    }

    try:
        response_body = bedrock_client.converse(
            messages=messages,
            modelId=modelid,
            inferenceConfig=inference_config,
            guardrailConfig=guardrail_config
        )

        logger.info("Usage: %s",  json.dumps(response_body['usage'], indent=2, ensure_ascii=False))
        logger.info("Output: %s", json.dumps(response_body['output'], indent=2, ensure_ascii=False))
        logger.info("stopReason: %s", json.dumps(response_body['stopReason'], indent=2, ensure_ascii=False))
        logger.info("Trace: %s", json.dumps(response_body['trace'], indent=2, ensure_ascii=False))

        return response_body['output']['message']['content'][0]['text']

    except Exception as e:
        logger.error("Failed to generate response: %s", e)
        raise


def main():
    # コマンドライン引数を取得する
    if len(sys.argv) < 2:
        print("Usage: python3 ./app.py <input_text>")
        sys.exit(1)

    input_text = sys.argv[1]

    logger.info("Original query: %s", input_text)


    try:
        print("Final response: " f"{generate_response(input_text)}")


    except ClientError  as err:
        message = err.response['Error']['Message']
        logger.error("A client error occurred: %s", message)


if __name__ == "__main__":
    main()

実行結果は以下の通りです。

❯ python3 ./app.py "Bedrockを使ってRAGを構築するには、どのような方法があるか?"
2024-09-30 22:45:23,201 [INFO] Original query: Bedrockを使ってRAGを構築するには、どのような方法があるか?
2024-09-30 22:45:23,218 [INFO] Found credentials in shared credentials file: ~/.aws/credentials
2024-09-30 22:45:24,314 [INFO] Usage: {
  "inputTokens": 0,
  "outputTokens": 0,
  "totalTokens": 0
}
2024-09-30 22:45:24,314 [INFO] Output: {
  "message": {
    "role": "assistant",
    "content": [
      {
        "text": "その質問には回答できません。"
      }
    ]
  }
}
2024-09-30 22:45:24,314 [INFO] stopReason: "guardrail_intervened"
2024-09-30 22:45:24,314 [INFO] Trace: {
  "guardrail": {
    "inputAssessment": {
      "50xfas7lh0x7": {
        "topicPolicy": {
          "topics": [
            {
              "name": "About Bedrock",
              "type": "DENY",
              "action": "BLOCKED"
            }
          ]
        }
      }
    }
  }
}
Final response: その質問には回答できません。

まとめ

Amazon Bedrock Guardrailsを使って、コンテンツフィルタを試してみました。英語のテキストに対しては期待通りの結果が得られましたが、日本語のテキストに対しては結果が安定しないようです。日本語のテキストに対しても信頼性の高い結果を得るためには、英語に翻訳してから評価するなどの工夫が必要です。
今後、日本語のテキストに対するサポートが強化されることを期待します。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?