ＡＲアドバンストテクノロジ株式会社（ＡＲＩ）エクスペリエンス&テクノロジーユニット Advent Calendar 2025

ＡＲアドバンストテクノロジ株式会社（ARI）

AWS AgentCoreで学ぶAIエージェントを本番運用する3つの観点（能力・統制・評価）

Posted at 2025-12-22

AIエージェントのプロトタイプ作成では、「何ができるか」に注目しがちです。しかし、実際の業務で使うには認証、ツール統合、監視、評価といった周辺機能が必要です。

プロト作成は楽しい工程ですが、本番運用を想定した周辺機能はエンジニアが興味を持ちにくい部分なので、プラットフォーム側でカバーしてくれるとありがたいです。

AWS re:Invent 2025で発表されたAWS AgentCoreの新機能群は、まさに本番運用に必要な機能を強化しています。

AIエージェントで「何ができるか」はわかってきて、「どう運用するか」のノウハウが求められる段階になってきました。

この記事では、AWS AgentCoreが提供する各機能を3つに分類して整理したいと思います。

①AIの能力基盤
②AIの組織統制
③AIの継続評価

①AIの能力基盤：AIに仕事をさせるための土台

AIエージェントが業務で役立つには、まず「仕事ができる状態」にする必要があります。AgentCoreは、その土台となる機能を提供します。

Runtime：AIが動く実行エンジン

AgentCore Runtimeは、AIエージェントをサーバーレスで実行する基盤です。

主な特徴：

LLM呼び出し、ツール実行、ストリーミング対応
フレームワーク非依存（LangChain、LlamaIndex、Strands、素のPython）
Starter Toolkitによる簡単デプロイ
A2A（agent-to-agent）通信で複数エージェント連携
VPC接続で社内システム統合

Gateway：AIの手足を安全につなぐ

AgentCore Gatewayは、API / MCPを通じて社内システムや外部SaaSを「AI用ツール」に変換します。

APIごとに認証方法や入力形式が異なると、エージェントが使いにくくなります。Gatewayは、これらを統一的に公開して吸収します。

API、Lambda、既存サービスをMCPとして公開
認証・入力形式・レスポンスを統一
エージェントが安全に使えるAPI窓口として機能

Memory：AIに継続性を与える

AgentCore Memoryは、エージェントの短期記憶・長期記憶を管理します。

LLMのコンテキストウィンドウには制限があるため、Memoryは会話文脈、判断結果、経験を別途管理します。

記憶の流れ：収集 → 抽出 → 保存(short / long) → 検索

記憶の種類：

short-term：セッション単位の一時的な会話内容
long-term：永続的に保存。業務理解や過去の判断基準
episodic（新機能）：時系列イベントや経験談を保存

設計指針：会話ログを全部覚えるのではなく、必要な情報だけを構造化して保存します。

Built-in tools：能力拡張ツール群

Code Interpreter：

隔離された実行環境で安全な計算・変換
数値計算、大量データ処理、軽量スクリプト実行
VPC接続により社内データベースやプライベートリソースへのアクセスも可能

Browser Tool：

APIがないWeb操作を実現
JavaScript実行、画面遷移、フォーム入力、クリック、DOM抽出
セッション可視化でエージェントの操作を確認可能

②AIの組織統制：AIを社員の一員として統制する

能力を持ったエージェントを業務で使うには、組織の一員として統制する仕組みが必要です。

Identity：AIを主体として扱うためのID基盤

AgentCore Identityは、エージェントのID・資格情報を集中管理します。

AIエージェントが業務システムやSaaSを操作するには、人間と同じように認証が必要です。IdentityはエージェントごとにIDを割り当て、「どのAIが、どの資格で動くか」を一元管理します。

管理対象：

OAuth 2.0による外部SaaS連携
APIキー
外部SaaSのアクセストークン
AWS SigV4資格情報

これにより、エージェントを一人の主体（Principal）として扱えます。

Policy：AIの最後のブレーキ（新機能）

AgentCore Policyは、エージェントが実行できる操作・リソースを制御します。

エージェントは自律的に判断しますが、すべての操作を許可するわけにはいきません。

Policyは、Cedarポリシー言語（AWSのオープンソース認可ポリシー言語）で行動ルールを記述します。自然言語での記述にも対応しており、英語で書いたルールが自動的にCedarポリシーに変換されます。実行時は決定論的に判定されます。

設定例：

OK：経費精算の申請
NG：経費精算の承認

ツール実行、A2A通信、時間、環境など、多様な観点で制御可能です。

③AIの継続評価：AIを使いっぱなしにしない

AIエージェントを本番運用するには、動作を監視し、品質を継続的に評価する仕組みが不可欠です。

Observability：AIの行動ログ・監査証跡

AgentCore Observabilityは、実行ステップ、入出力、ツール呼び出しをトレースします。

従来のシステムは動作が機械的でしたが、AIエージェントは柔軟で予測困難です。「なぜこのツールを呼んだか」「どのデータで判断したか」を説明できる必要があります。

ログ・メトリックス・アラームはCloudWatch基盤で、OpenTelemetryにも対応。既存の監視システムと統合しやすくなっています。

Evaluation：AIの品質を育てる仕組み（新機能）

AgentCore Evaluationは、エージェントの応答品質を継続的に評価します。

従来のシステムは動作が決定的でしたが、AIエージェントは「昨日は正しかったのに、今日は違う」ということが起こり得ます。LLMのバージョンアップや学習データの変化で、同じ入力でも異なる出力となる可能性があります。

評価軸の例：

Correctness（正確性）
Helpfulness（有用性）
Tool selection accuracy（ツール選択精度）
Goal success rate（目標達成率）

Prompt変更やモデル変更の影響を定量比較でき、品質劣化を早期に検知できます。

まとめ

AWS AgentCoreは、「賢いAIを作る基盤」ではなく、「AIを業務システムとして成立させる基盤」です。

PoC止まりのAIは「①能力基盤」しかありませんが、業務で使えるAIには①能力 × ②統制 × ③評価が必要です。

re:Invent 2025で発表された新機能（Policy、Evaluation）は、②統制と③評価を強化するものです。プロトタイプでは後回しにされがちですが、本番運用では避けられない要素です。これらがプラットフォーム側でカバーされることで、エンジニアはエージェント本体の開発に集中できます。

AWS AgentCoreは、AIをデモレベルから業務システムへ、「何ができるか」から「どう運用するか」へ、その移行を支える基盤として進化していそうです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up