More than 1 year has passed since last update.

Japan AWS Top Engineers Advent Calendar 2024

AWS re:Invent 2024 から見るAIOpsの進化

Posted at 2024-12-30

はじめに

AWS re:Invent 2023 で Bedrock が登場してから1年以上が経過しました。このサービスは、さまざまな基盤モデルを単一のAPIで利用可能にすることで汎用性を高め、テキスト生成、要約、画像生成など幅広いユースケースに対応しています。また、セキュリティやプライバシーへの配慮にも重点を置き、信頼性の高いサービスを提供してきました。

そして、AWS re:Invent 2024では、プロンプトキャッシングによるコストとレイテンシの削減、プロンプトルーティング、蒸留モデル（Model Distillation）、GraphRAG、新モデル「Nova」のリリースなど、基盤技術の整備が着実に進んでいます。これにより、生成AIを活用したアプリケーション開発の効率化と、クラウド環境の構築プロセスに大きな変化をもたらしたのが特徴的といえるでしょう。

こうした進化とともに、AIや機械学習を活用したIT運用の自動化・最適化のアプローチはどのように進化してきたのでしょうか。本記事では、その変化について整理していきます。

ガバナンス

AWS Systems Manager の新しいエクスペリエンス(Unified console)

新しいUIでは以下の機能が追加されています。

Systems Managerに初めてアクセスすると、メッセージが出てアクセス権限を付与すると新しいUIに変更されます。

ノードのインサイトを確認

アカウント内のマネージドノードに関するインサイトを確認します。グラフィックにカーソルを合わせると、より詳細なデータへのリンクにアクセスできます。

ノードのインサイト画面で追加できるウィジェットは現時点では4種類のみ。今後の追加に期待。

ノードを詳しく見る

アカウント内のマネージドノードの詳細を調べます。以下の情報を参照可能です。

診断および是正

Systems Managerによるデプロイに関する問題(デプロイの失敗やドリフト)の調査を行います。

ドリフト状態となっている構成を特定し、Redployすることで解決を図ります。

また、診断ランブックを実行することで、アンマネージドなEC2インスタンスを特定し、SSMエージェントが Systems Managerに接続するのを妨げているネットワーク設定の問題についての調査を行います。

問題については、おすすめのランブックが表示されるため、それを実行することで解決を図ります。VPCエンドポイントが存在しない場合、以下のようなランブックがレコメンデーションされます。

AWS-RemediateSSMAgentVPCEndpoints
Verify your VPC configuration

設定

Systems Managerを有効にするかどうかの設定を行います。
ターゲットの EC2 インスタンスをスキャンして Systems Manager で接続の問題を診断する読み取り専用ランブックをいつ実行するかを指定します。

また、Amazon QによってAWSリソースを一覧表示することも可能となっています。

その他

このほかにもガバナンス強化のためのエンハンスメントが発表されています。
AWS リソースへのアクセスを一元的に制限するリソースコントロールポリシー (RCP) の導入
既存のタイプの組織ポリシーであるSCPを補完。SCPは組織内の IAM ロールとユーザーの最大許可を一元管理するのに対し、RCPは組織内の AWSリソースに対する最大許可を一元管理する。

Amazon Web Services が宣言型ポリシーを発表
サービスのベースライン構成を定義するために組織全体のパブリック状態等を制御するポリシー。

AWS CloudTrail Lake がイベントフィルタリングの強化を発表
管理イベントとデータイベントにおいて、リクエストサービス、イベントタイプ、IAMエンティティ、セッションによるフィルタリングが可能。

AWS Resource Explorer でセキュリティ、コンプライアンス、運用のメトリクスを検索
リソースのプロパティ、AWS Cost Explorer によるリソースレベルのコスト、AWS Security Hub の調査結果、AWS Config のコンプライアンスと設定履歴、AWS CloudTrail によるイベントタイムライン、接続されたリソースを示すリレーションシップグラフを確認できる。

観測(オブザーバビリティ)

これまでの CloudWatch は以下のような機能から構成されていました。

re:Invent 2024のエンハンスメントにより以下のような機能強化が実装されています(黄色の部分)。

Database Insights

従来のPerformance Insight、CloudWatch Logs、CloudWatch Application Signals などを統合した機能です。これまで、Auroraでトラブルが発生した場合は、Performance Insightsを参照し、必要なログを確認するという手順でしたが、Database Insightsによりトラブルシューティングを効率化することができます。

Database InsightsはAuroraの設定で行います。設定は2種類から選択可能です。

Database Insights Advanced
- 15ヶ月分のパフォーマンス履歴を保持することが可能(変更不可)
- フリートレベルのモニタリング
- CloudWatch Application Signalsとの統合
Database Insights Standard
- 従来のPerformance Insightsを有効にするかどうかを設定可能
- パフォーマンス履歴を7日間保存(無料)し、最大24ヶ月分のパフォーマンス履歴の保存が可能

フローモニター

VPC間、AZ間、AZ内のコンピューティングインスタンスと、AWSサービスであるS3や、DynamoDBとの間のパフォーマンス状況の可視化が可能な機能です。パフォーマンス劣化の原因がアプリケーション側にあるのか、ネットワーク側のものであるのかを切り分けに有効です。

フローモニターの利用には、あらかじめEC2インスタンスやEKSにエージェントをインストールしておく必要があります。
https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-NetworkFlowMonitor-agents-ec2.html

どこからどこの監視を行うか、ローカルリソースとリモートリソースの設定を行います。

EC2からS3へのネットワークフローの監視を行う場合、以下のようになります。
ローカル：エージェントが稼働しているEC2のプロビジョニング先サブネット
リモート：AWSサービスを選択してプルダウンメニューから「S3」を選択

インターネットからVPCまでのネットワークモニタリングは、インターネットモニター、VPC内についてはフローモニターと使い分ける必要があります。

Synthetic monitors

ソースとなるVPCサブネットと宛先IPアドレス間のネットワークトラフィックを監視します。

Application Signals 配下のメニューにある外形監視のSynthetics Canaries(エンドポイントへの接続確認)とは異なるので注意してください。

テレメトリ

AWSリソースのテレメトリ設定としてEC2インスタンス詳細メトリクス、VPCフローログ、Lambdaトレースの設定状況を収集して管理することが可能です。メトリクス、ログ、トレースのカバレッジ率を一覧で表示可能です。

オブザーバビリティソリューション

提供されているソリューションによって、どのようなメトリクスを取得すべきか、推奨されるダッシュボードの作成やアラームの作成などを自動的に行ってくれます。
主要なAWSマネージドサービスのみならず、利用頻度の高い、JVM/Tomcat/NGINXなどにも対応しています。

分析

Operational Investigation

Operational Investigationとは、AWSの運用において、問題の根本原因を特定し、システムの状態を迅速に理解するためのプロセスやアプローチです。このプロセスでは、CloudWatchが提供する機能を利用して、ログ、メトリクス、アラーム、ダッシュボードなどの情報を活用し、システムの挙動や問題を詳細に分析し、問題を解決するための次のアクションの提示をしてくれます。

現在は、プレビュー版のため、バージニアでのみ AIオペレーションのメニューが表示されます。

調査結果は以下のような画面で表示されます。

時系列で調査された内容が Feed 一覧に並んでいます。上部の Suggestions ボタンを押すと右側に Amazon Q の提案がリストアップされて表示されます。

提案には推奨アクションが表示される場合があります。推奨アクションについては、ドキュメント表示あるいは Systems Manager の Automation Runbook を使った修復アクションの実行が可能です。

おわりに

re:Invent 2024で発表された機能によりAIとの連携が一層進んでおり、CloudOperationの進化を垣間見ることができた。日本語化対応も含めて、使い勝手とかはまだまだ向上の余地あり、AIの進化はこれからこれらを適切に使いこなせるだけのスキルアップも求められる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up