0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AWS Bedrock AgentCore Evaluations: AI エージェントを評価する

Last updated at Posted at 2025-12-06

はじめに

AWS re:Invent 2025 で発表があった AWS Bedrock AgentCore Evaluations をシンプルに纏めます。

内容

AI エージェントの実際の行動に基づいてパフォーマンスを継続的に監視・分析するサービス。

スクリーンショット 2025-12-06 19.26.30.png

組み込み評価ツールとカスタム評価ツール

  • 組み込み評価: 正確性、有用性、ツール選択の正確性、安全性、目標達成率、コンテキストの関連性など、 13 種類の評価項目があらかじめ準備されている評価項目を利用

  • カスタム評価: 組み込みの評価でユースケースが解決されない場合は、評価に使用させるモデルなどを選択しカスタマイズしたカスタム評価ツールで評価をすることも可能

利用可能なリージョン

  • バージニア北部
  • オレゴン
  • フランクフルト
  • シドニー

組み込み評価

理解しやすいようにブラウザの機能で、日本語翻訳しています

設定は説明する程まででもなさそうですので、細かくは割愛します。
Strands Agents と Amazon Bedrock AgentCore の MCP サーバーを使って AI エージェントをデプロイ(TypeScript)で作成した AI エージェントを評価したいので、画面にある 4 つの評価項目を選択してみました。
AI エージェントの中では、AWS Knowledge MCP サーバー が動作するので、適切なツールが選択されているかを主に評価したいです。
スクリーンショット 2025-12-06 19.29.48.png
スクリーンショット 2025-12-06 20.00.59.png
スクリーンショット 2025-12-06 19.37.07.png
スクリーンショット 2025-12-06 20.05.28.png
スクリーンショット 2025-12-06 20.05.38.png

あれ?組み込み評価の作成に失敗しました。
スクリーンショット 2025-12-06 20.06.36.png

「トランザクション検索」を有効にする必要があるとのことですので、CloudWatch の画面にいき、トランザクション検索 を有効化します。なお、「トランザクション検索」が有効化されているにも関わらず、組み込み評価の作成に失敗するときは、CloudWatch Logs の画面にいき、 aws/spans ロググループがあるか確認しましょう。
スクリーンショット 2025-12-06 20.27.41.png

「トランザクション検索」を有効にしたら、組み込み評価の作成が完了したので、次のようなプロンプトでテストしてみます。

プロンプト
AWS REInvent 2025 で S3 系の発表はありましたか

うん、AWS の質問だからなのかもしれませんが、Amazon Nova2 Lite 良くなっている気がする。
スクリーンショット 2025-12-07 0.15.12.png

しばらく経つと、CloudWatch の画面で結果を確認できます。何度か実施し、エラーを起こしてしまっているので、エラーがカウントされているのは自然です。また、表示されるまでに意外と数分かかっていたので、慌てずに待ちましょう。
スクリーンショット 2025-12-07 0.22.03.png
スクリーンショット 2025-12-07 0.22.38.png

ちなみに、メトリクス名がわかりにくいので詳細は以下のドキュメントで確認しましょう。

カスタム評価

カスタム評価では、メトリクス名によってテンプレートが用意されているので、

  • 独自にカスタマイズしたプロンプトを作成するのと
  • 評価に使用するモデルを選択して利用する

点がポイントのようです。
スクリーンショット 2025-12-07 0.44.36.png
スクリーンショット 2025-12-07 0.44.48.png

カスタム評価はここまでとしますが、カスタム評価をする場合、AI エージェントと同じモデルを利用して評価させた方がいいのか、別の視点から評価するために別のモデルを使った方がいいのかなどどうなのでしょうか。

最後に

Amazon Bedrock Evaluation のときもそうだったと思うんですが、数値ってあくまで判断材料の一つであって、いまいち信用していいかどうかはやっぱし使う人の判断が大事になるのと、やっぱしログやトレースをちゃんと確認すべきだと感じました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?