はじめに
AWS re:Invent 2025 で発表があった AWS Bedrock AgentCore Evaluations をシンプルに纏めます。
内容
AI エージェントの実際の行動に基づいてパフォーマンスを継続的に監視・分析するサービス。
組み込み評価ツールとカスタム評価ツール
-
組み込み評価: 正確性、有用性、ツール選択の正確性、安全性、目標達成率、コンテキストの関連性など、 13 種類の評価項目があらかじめ準備されている評価項目を利用
-
カスタム評価: 組み込みの評価でユースケースが解決されない場合は、評価に使用させるモデルなどを選択しカスタマイズしたカスタム評価ツールで評価をすることも可能
利用可能なリージョン
- バージニア北部
- オレゴン
- フランクフルト
- シドニー
組み込み評価
理解しやすいようにブラウザの機能で、日本語翻訳しています
設定は説明する程まででもなさそうですので、細かくは割愛します。
Strands Agents と Amazon Bedrock AgentCore の MCP サーバーを使って AI エージェントをデプロイ(TypeScript)で作成した AI エージェントを評価したいので、画面にある 4 つの評価項目を選択してみました。
AI エージェントの中では、AWS Knowledge MCP サーバー が動作するので、適切なツールが選択されているかを主に評価したいです。





「トランザクション検索」を有効にする必要があるとのことですので、CloudWatch の画面にいき、トランザクション検索 を有効化します。なお、「トランザクション検索」が有効化されているにも関わらず、組み込み評価の作成に失敗するときは、CloudWatch Logs の画面にいき、 aws/spans ロググループがあるか確認しましょう。

「トランザクション検索」を有効にしたら、組み込み評価の作成が完了したので、次のようなプロンプトでテストしてみます。
AWS REInvent 2025 で S3 系の発表はありましたか
うん、AWS の質問だからなのかもしれませんが、Amazon Nova2 Lite 良くなっている気がする。

しばらく経つと、CloudWatch の画面で結果を確認できます。何度か実施し、エラーを起こしてしまっているので、エラーがカウントされているのは自然です。また、表示されるまでに意外と数分かかっていたので、慌てずに待ちましょう。


ちなみに、メトリクス名がわかりにくいので詳細は以下のドキュメントで確認しましょう。
カスタム評価
カスタム評価では、メトリクス名によってテンプレートが用意されているので、
- 独自にカスタマイズしたプロンプトを作成するのと
- 評価に使用するモデルを選択して利用する
カスタム評価はここまでとしますが、カスタム評価をする場合、AI エージェントと同じモデルを利用して評価させた方がいいのか、別の視点から評価するために別のモデルを使った方がいいのかなどどうなのでしょうか。
最後に
Amazon Bedrock Evaluation のときもそうだったと思うんですが、数値ってあくまで判断材料の一つであって、いまいち信用していいかどうかはやっぱし使う人の判断が大事になるのと、やっぱしログやトレースをちゃんと確認すべきだと感じました。



