2025/05 現在プレビュー
概要
運用診断を通じてガイドし、ワークロードの問題の根本原因分析を自動化してくれる。
オブザーバビリティデータを分析し、ワークロードの問題の根本原因分析を行なってくれるようだ。
調査がサポートされている AWS サービス
Amazon Q Developer が調査で表示できるインサイト
調査の設定
ここでは調査の保持期間と必要に応じて調査データを AWS カスタマーキーで暗号化するかを選択します。
Amazon Q Developer が調査のためにテレメトリーデータへアクセスするために使用する IAM ロールを設定します。
アプリケーションで使用する既存のカスタムタグキーを指定できます。これらのタグは、Amazon Q Developer がリソースの関係を検出する際に検索を絞り込むのに役立ちます。
Amazon Q Developer が CloudTrail データにアクセスし、システム内の問題と根本原因の仮説を作成するのに役立ちます。
選択したチャットクライアントに通知を配信することができます。Amazon Q Developer in chat applications の SLACK に飛ばすように設定してみました。
サンプルの準備
サンプルとして意図的にエラーを発生させるために以下のような Lambda を作成しておき、Lambda の「Errors」メトリクスから、アラームを作成しておきます。
import time
def lambda_handler(event, context):
# Lambda関数のタイムアウト時間が3秒なら、5秒スリープするとタイムアウトが発生
time.sleep(5)
return {
'statusCode': 200,
'body': 'This line will never be reached due to timeout.'
}
調査する
※ 以下、Amazon Q Developer からの回答は日本語になっていますが、Google 翻訳しているので実際に回答は英語です。
手動で実行
CloudWatch アラームの画面で、「調査」から「新しい調査を追加」もしくは「既存の調査に追加」から可能です。
「仮説」と「観測結果」が提案されました。ここは、実際には Lambda コードの中身を見ている訳ではないはずですので原因と言うよりも影響範囲としての「仮説」がたてられているようです。
次に「アクションを表示」をクリックしてみます。「Lambda 関数のコードと構成を分析して〜」と提案してきているので、次に何を確認したらよいか曖昧ではありますがある程度のトラブルシューティングは提案してくれているように見受けられました。
自動で実行
CloudWatch アラームのアクションで、「調査アクション」を選択することで自動実行してくれるようです。
「仮説」と「観測結果」が提案されました。うーん、SQS や SNS など関係ないものまで拾ってきて提案してきているのでこれは微妙ですね。
「AI_Operations_Lambda 関数の設定ミスや非互換性〜」などと提案してきていますが、関係のない SQS や SNS のトラブルシューティングなども提案してきたのでこれではトラブルシューティングの範囲が広くちょっと大変で工夫を必要かもしれません。
通知
先程「調査の設定」で SLACK へ通知する設定をしました。「仮説」と「観測結果」にある内容と同じものが以下の通り通知されるようです。
ベストプラクティス
当たり前の話ですが、より多くの情報をあった方がより良い提案を行えるので、以下のような AWS サービスと機能を有効にすることがベストプラクティスとして推奨されています。