AWS re:Invent 2025に現地参加してきたので、早速ブログを書いていきます。
今回は二日目のCEO KeyNoteで発表された「AWS DevOps Agent」についてです。
DevOpsエージェントを使って障害調査を行うWorkShopに参加したので、そこでの感触をベースに記録を残していこうと思います。
なお、本記事のターゲットはDevOpsエージェントを使ってみたいけど動かせる環境がない/動かす許可が降りない方を想定していますので、既に動かせる環境がある方は動かした方が手っ取り早いと思います。
DevOps Agentができること
カタログスペック的な部分に関しては公式ドキュメントを読むのが早いと思います。
https://docs.aws.amazon.com/devopsagent/latest/userguide/what-is.html
実際に触ってみた人間として、簡潔に表現すると以下になります。
・平常時のシステム構成の可視化(トポロジ検出)
・障害時の初期対応(原因特定・対応策検討/手順作成・インシデントレポート作成)
本記事では主に後者の機能について触れていきます。
障害調査やってみた
KeyNoteの直後にNewLaunchされたDevOpsエージェントを体験するWorkShopではエージェントを通じた障害調査を実施しました。
大まかな流れとしては、マイクロサービスアーキテクチャで構成されたECサイトにて問題が発生したようなシナリオでした。
(マイクロサービスアーキテクチャに関しては、複数のAPIやDBが複雑に絡み合うため障害特定が難しい印象があるので、障害調査の能力を検証するには最適の構成だと思いました)
今回はDunamoDBのWRCキャパシティ不足が原因のエラーを発生させて障害を起こしていました。
※障害再現手順の詳細に関しては本筋では無いため割愛します
まずはエージェントの作成
まずはエージェントを作成していきます。
コンソールの検索窓から「DevOpsエージェント」と検索したらすぐに出てきました。

[セットアップを開始]からエージェントのセットアップを開始します。
このセットアップ手順の中で唯一気を付けるポイントはIAMロールの権限です。

このIAMロールに付与した権限がトポロジ検出や障害調査時のクオリティに影響してくるので、特殊な要件がない限りは新規作成とするのが無難かと思います。
作成したエージェントで分析を実施する
エージェントが作成できたらまずはDevOpsエージェントのWebアプリを覗いてみましょう。
トポロジ検出の結果を確認できる「DevOpsセンター」や障害調査を行える「Incident Response」、予防策を講じる「Prevention」の3つのメニューから構成されています。
※下記画像はDevOpsセンターの画面です

#このようなシステム構成の可視化はX-Rayのサービスマップでしか似たようなことをできない認識だったのでかなりありがたい機能に感じました。
ということで分析を実施していきます。
Incident Responseの画面で調査を依頼するプロンプトを入力し、[Start Investigation]で調査を実行します。

調査を開始すると、10分程度で根本原因を探し当ててくれました。(速すぎる)
調査の進行中はリアルタイムで調査状況を共有しながら判明した結果を共有してくれていました。
最終的な調査結果が下記の画像です。(Chromeで翻訳かけてます)

WorkShopの時は時間がなく試せませんでしたが、チャット形式で深掘り調査もできそうな雰囲気でした。(なお上記画像左下のエラー表示は無視してくれとのことでした)
根本原因を特定した後は、原因の排除/事象の緩和手順を提案してくれます。

設定変更手順に関しては、事前確認・変更作業・事後確認といった当たり前にやるべき作法も守られており、クオリティとしてはかなり高いものが生成されていました。
所感
ということで、DevOps Agentを使ってみた所感です。
良かった点
・トポロジ検出が有能
→複雑なシステム構成であればあるほど、一気に可視化できるこの機能の価値は輝くと思います。
・言わずもがな障害調査(10分で根本原因特定)
→10分で障害原因の特定まで行い、続けて対処まで見据えたサジェスチョンを行える運用員ってなかなかいませんよね??(しかも充実したインシデントレポートまで書いてくれる)
判断や責任はあくまで人間の領分だと思いますが、そこに至るまでの作業はAIが肩代わりしてくれる時代ですね。
GAに向けて期待したい点
・日本語対応
→現状では日本語に対応していないため、実運用で導入するためには日本語対応は期待したいところです。
・AWSフルマネージド構成における調査開始の自動化
→WorkShopではDynaTraceのようなサードパーティ製品と連携して調査の自動化まで実現していましたが、サードパーティを使わない構成でここも実現できると嬉しい人は沢山いると思います。
・トポロジ検出でアラームの状態も可視化してほしい
→かなり有能と評価したトポロジ検出ですが、アラート状態になったCloudWatch Alarm等があれば、問題のある箇所を容易に可視化できて便利だと思いました。
終わりに
全体的には非常に有効なサービスだと感じたので、引き続き活用の可能性を模索していきたいと感じました。
ただし、そのまま実運用に使えるとは限らないとも感じたのでGAを楽しみにしたいと思います。(それまで色々触ってみるぞ〜!!)
本ブログはここで終わろうと思います。
ここまでお読みいただきありがとうございました。
