はじめに
Amazon Bedrock ではAPIの呼び出しをログとして出力することができます。
この機能を利用することで、実際に Bedrock をサービスで利用する上で問題が発生した時に調査しやすくすることができます。ただし、現状、Bedrock ログは 入力されたプロンプトと出力された結果をそのまま出力します。そのため、個人情報などを含むプロンプトを入力して利用する場合、ログにも個人情報が含まれてしまい、CloudWatchログなどを見れるユーザーが個人情報にアクセスできてしまう可能性があります。この問題を解決するにはログ上の個人情報の部分をマスクするなどの処理が必要です。しかし、現状、日本語の個人情報などをマスクしてログに出力するBedrockの機能は提供されていません。
この問題に対して、本記事では、CloudWatch Logs Data Protectionを利用し、プロンプトの全文マスクすることで対処します。
Bedrock のログを CloudWatch Logs に出力する
まず、BedrockのログをCloudWatch Logsに出力する設定を行います。
Bedrockの画面の左メニューの下の方に[Settings]がありますので選択します。
[Model invocation logging]をオンにし、[Select the data types to include with logs]でログの出力種類を選択します。
[Select the logging destinations]では[CloudWatch Logs only]を選択します。
[Log group name]に ログの保存先のロググループ名を入力します。
[Choose a method to authorize Bedrock]ではログを配信するためのIAMロールを指定します。ここでは[Create and use a new role]を選択し、新しく作成します。
最後に[Save settings]を選択し、設定を保存します。
これで、以後はログが保存されるようになります。
試しにログを見てみましょう。
以下のようにログを有効化した後にプレイグラウンドでチャットをしてみます。
次に、CloudWatch Logs で先ほど指定したロググループを選択し、ログストリームの内容を確認します。
このように入力したプロンプトと出力内容が表示されていることが分かります。
CloudWatch Logs の Data Protection を利用する
次に、CloudWatch Logs の Data Protection を設定します。
Data Protectionでは大きく標準で用意されている「マネージドデータ識別子」と「カスタムデータ識別子」があります。
ただし。日本語の氏名などでは、「マネージドデータ識別子」は上手く動作しません。そのため、今回は「カスタムデータ識別子」を利用し、入出力全体をマスクします。
「カスタムデータ識別子」は正規表現を利用して、任意の文字列を指定することができます。
Bedrockのログでは、ログの出力内容を確認するとシステムプロンプト、ユーザープロンプト、出力内容は共通して「content」キーが用いられていることが分かります。
そのため、今回は「"content:"」から「}]」までをマスクするように指定しました。
利用した正規表現は以下の通りです。
"content":\s*(\[(?:[^[\]]|\[(?:[^[\]]|\[(?:[^[\]]|\[[^[\]]*\])*\])*\])*\])
この正規表現は Bedrock Claude3.5 で作成してもらいました。(正規表現が苦手な当方でも簡単に作成できましいた。生成AIってすごい。)
これを CloudWatch Logs の該当のロググループの DataProtection に登録します。
さて、それでは実際にテストしてみます。
再度 Bedrock のプレイグラウドでチャットを行います。
次に、CloudWatch Logs のログストリームを確認します。
JSONが壊れてしまっていますが、入出力の内容がマスクされていることが分かります。
また、Data Protection は 「logs:Unmask」権限が付与されている場合、元の文字列を表示することができます。
「Display > Temporarily unmasked protected data」を選択します。
すると、下記図のようにマスクの無いログを確認することができます。
通常はマスクありで調査を行い、どうしてもプロンプトの内容が必要な場合だけ 「logs:Unmask」権限を付与することで、個人情報を保護しつつ、Bedrock の問題を調査しやすくすることができます。
まとめ
今回はBedrockのログの入出力テキストを CloudWatch Logs Data Protection を利用してマスクすることで個人情報に配慮しつつ、調査を行いやすくする方法を紹介しました。
その他にはCloudWatch Logs サブスクリプションフィルターを活用し、マスクした状態で保存されるようにする方法も考えられます。
もっとスマートな方法があればぜひご共有ください!!