はじめに
本記事は、re:Invent 2025の参加レポートです。
12月にラスベガスで行われた、AIエージェントを利用したSaaSデータの統合に関するChalk Talkセッション「Accelerating SaaS Data integrations with Agentic AI [REPEAT]」の参加レポートです。
セッションについて
タイトル
Accelerating SaaS Data integrations with Agentic AI [REPEAT] (ISV308-R)
概要(日本語訳)
企業は、情報が孤立したシステム間で分断される「データのサイロ化」に苦慮しており、
信頼性の低い分析やコンプライアンスリスクの原因となっています。
ETL、API、手動マッピングといった従来の統合手法は、不整合やフォーマットの競合が発生しやすく、設定に数ヶ月を要することもあります。
本セッションでは、Amazon NovaやAmazon Bedrockを利用したAWS上のクラウドネイティブなAgentic AIプラットフォームが、SaaSデータ統合を数ヶ月の手動プロセスから数日で完了する自律的な運用へと、どのように変革するかを学びます。
単一の信頼できる情報源(Single Source of Truth)の作成、セキュリティとガバナンス基準の維持、そして手動のルールベース統合から、
SaaSポートフォリオの拡大に合わせてスケールするインテリジェントでコンテキスト認識型のデータ管理への移行について、アーキテクチャのブループリントと実践的なパターンを共有します。
スピーカー
- Neha Daudani, Senior Solutions Architect, AWS
- Meena Thandavarayan, Principal Solutions Architect, Amazon
スケジュール
- 日時: 2025年12月2日 15:00 AM - 16:00 PM PST
- 場所: MGM | Level 1 | Boulevard 169
セッションタグ
- セッションタイプ: Chalk talk
- 対象レベル: 300 – Advanced
- 形式: Interactive
- トピック: Architecture, Artificial Intelligence
- 関心領域: SaaS, Automation, Agentic AI
- 業種: Software & Internet
- セグメント: Enterprise, Independent Software Vendor
- 対象ロール: Data Engineer, IT Executive, Solution / Systems Architect
- 対象サービス: Amazon Bedrock, Amazon Nova
ポイント
このセッションのポイントです。
- 従来のETLの限界: データの移動ではなく「意味の理解」が真の課題であり、従来の機械的なパイプラインではスキーマ変更やドキュメント不足に対応できない。
- Agentic AIのアプローチ: 推論・行動・観察のループを持つAIエージェントにより、ディスカバリー、マッピング、変換を自律的に行う。
- マルチエージェントアーキテクチャ: 単一のエージェントではなく、ディスカバリー、変換、ロード、オーケストレーターといった役割ごとのモジュールで構成されたアーキテクチャの紹介。
- 長期メモリの活用: 短期メモリだけでなく、ベクトルストアを用いた長期メモリ(意味記憶、エピソード記憶、手続き記憶)を実装することで、過去の学習を再利用し効率化する。
データ統合の課題とAgentic AI
従来のデータ統合パイプラインの限界
一般的に、データ統合は「ソース(SQL/NoSQL、ファイル、APIなど)からターゲットへデータを移動するパイプライン(ETL)」として実装されます。
Extract(抽出)、Transform(変換)、Validation(検証)、Load(ロード)の各ステップには確立されたツールが存在しますが、
スピーカーは「本当の課題はデータの移動ではない」と指摘しました。
真の課題は 「データが何を意味するかを理解すること」 です。
- ドキュメントが古く、実態と乖離している
- カラム名やデータ型が変更される
- ビジネスルールの変更に追従する必要がある
これらは認知的(Cognitive)なタスクですが、これまでは機械的なツールで解決しようとしてきました。
ここにAIエージェント(Agentic AI)を導入することで、インテリジェントな適応力を持たせることができます。
エージェントの主要コンポーネント
セッションでは、エージェントを構成する要素として以下が挙げられました。
- ゴール/目的 (Goal/Purpose): エージェントが何を達成すべきか。
- 指示 (Instructions): プロンプトとして与えられる具体的な指示。
- モデル (Model): 推論を行うためのLLM(Amazon Novaなど)。
- ツール (Tools): 実際の行動を起こす機能(ファイルパーサー、APIクライアントなど)。
- メモリ (Memory): 会話履歴や作業状態を保持する。
- コンテキスト/データ (Context/Data): 処理対象のデータ。
従来のワークフローエージェント(基本形)
まず基本となるワークフローは、線形にタスクを実行するエージェントです。
- トリガー: データ着信(S3イベントなど)。
- ツール1: ファイルパーサー: コードベースのツールでファイル形式(CSV, JSON等)を判別し、ヘッダー情報などを抽出して短期メモリに保存。
- ツール2: プロファイラー: データの統計情報、Null値の有無、データ型などを分析。
- ツール3: スキーマジェネレーター (LLMベース): 前段の情報を元に、LLMを使ってテーブル説明やカラム説明を生成(推論)。
エージェントは「推論 (Reason) → 行動 (Act) → 観察 (Observe)」のループを回します。
この段階は事前に定義されたワークフローに従う形です。
インテリジェントエージェントへの進化
エージェントにより高度な判断を行わせるために、以下の要素を追加します。
Human-in-the-loop と LLM as a Judge
生成されたスキーマが正しいかを検証するプロセス。
人間が確認する前に、別のLLM(LLM as a Judge / Critique Tool)に検証させ、フィードバックループを回すことで、精度を向上させます。
長期メモリ (Long-term Memory) の活用
エージェントが「学習」するために、短期メモリの内容を長期メモリ(ベクトルストア)に保存します。
長期メモリには3つのタイプがあります。
- 意味記憶 (Semantic Memory): 「これは顧客IDカラムである」といった知識(What)。
- エピソード記憶 (Episodic Memory): 「過去にこの形式のCSVを処理した際、このパーサーを使用した」という経験(How)。
- 手続き記憶 (Procedural Memory): 成功した手順やパターン。
これらをベクトル化して保存することで、
次回類似のデータが来た際に、高価なLLMによるスキーマ生成プロセスを一から行わずに、過去の記憶を検索(Search Tool)&再利用することが可能になります。
MCP (Model Context Protocol) サーバー
ツールが増え続けるとエージェントのコード修正が煩雑になるため、
MCPサーバーを利用してツールをモジュール化し、エージェントに動的にアタッチする構成が紹介されました。
これにより、エージェント本体を変更せずに機能を拡張できます。
技術スタック(AWSサービスへのマッピング)
設計した論理アーキテクチャをAWS上で実装するための技術スタック例も共有されました。
| コンポーネント | AWSサービス / ツール |
|---|---|
| データ取り込み | Amazon S3, Amazon EventBridge |
| エージェントフレームワーク | LangChain, LangGraph |
| デプロイ/ランタイム | Amazon Bedrock Agents, AWS Fargate, AWS Lambda |
| モデル | Amazon Bedrock (Amazon Nova等) |
| ツール | AWS Lambda, AWS Glue (Pandas/PySpark) |
| 短期メモリ | Amazon ElastiCache, Amazon DynamoDB |
| 長期メモリ | Amazon OpenSearch Service, Pinecone |
| メモリ管理 | Bedrock Agent Memory (管理不要でメモリ機能を統合) |
| プロンプト管理 | Amazon Bedrock Prompt Management |
特に Amazon Bedrock Agents は、
ツールを登録するだけでMCPサーバーのような機能を提供し、
メモリ管理機能(Bedrock Agent Memory)も統合されているため、
実装を大幅に簡素化できると強調されていました。
まとめ
本セッションでは、データ統合の課題を解決するための「Agentic AI」のアプローチが解説されました。
単一の巨大なエージェントではなく、ディスカバリー、変換、検証といった役割ごとのモジュラーなエージェントを組み合わせ、
オーケストレーターが調整するアーキテクチャが推奨されています。
また、長期メモリを活用することで、エージェントが過去の処理から学び、効率的に動作する仕組みは、SaaSデータ統合の自動化において重要となる視点でした。
[re:Invent 2025] 参加レポート一覧はこちら (随時更新)