はじめに
AWS Certified Cloud Operations Engineer – Associate(SOA-C03)は、AWSインフラの運用・監視・トラブルシュートに焦点を当てた試験です。2024年に SysOps Administrator から改称されました。
「構築したあとの運用」が問われる試験なので、CloudWatch による監視と通知の仕組みは避けて通れません。アラームの設定、SNSとの連携、自動復旧のパターンは最頻出の一つです。
問題
あなたの会社では、複数のEC2インスタンスで構成されるWebアプリケーションを運用しています。最近、アプリケーションの応答時間が不安定になり、CPU使用率が80%を超えた際に自動的にアラートを送信し、同時にAuto Scalingを実行する監視システムを構築する必要があります。また、アラート発生時には運用チームのSlackチャンネルに通知を送信し、CloudWatchダッシュボードで過去30日間のメトリクス推移を可視化する要件があります。最もコスト効率的で運用負荷の少ないソリューションを1つ選択してください。
A. CloudWatch Alarmを作成してCPU使用率80%をしきい値に設定し、アラーム状態でSNSトピックに通知を送信する。SNSトピックからLambda関数をトリガーしてSlack Webhook APIを呼び出し、同じSNSトピックをAuto Scaling Groupのスケーリングポリシーに連携させる。CloudWatch Dashboardで30日間の保持期間を設定したカスタムメトリクスウィジェットを作成し、EC2インスタンスのCPU、メモリ、ネットワークメトリクスを統合表示する
B. CloudWatch Insightsを使用してCPU使用率のクエリを定期実行し、EventBridge Ruleで5分間隔のスケジュールを設定する。CPU使用率が80%を超えた場合にEventBridge TargetとしてSNS、Lambda、Auto Scalingを並列実行し、Lambda関数内でSlack通知とCloudWatch APIを使用したカスタムダッシュボードの動的更新を実装する。CloudWatch Logsに監視結果を記録し、30日間のログ保持ポリシーを設定する
C. Systems Manager OpsCenter Insightを活用してEC2インスタンスの異常検知を自動化し、CPU使用率パターンの機械学習ベースの分析を実行する。異常検知時にSystems Manager Automation DocumentでSlack通知とAuto Scalingを順次実行し、CloudWatch Synthetics Canaryで継続的なアプリケーション監視を実装する。X-Rayトレーシングと連携してアプリケーション全体のパフォーマンス分析を30日間保持する
D. CloudWatch Agent Enhanced Monitoringを全EC2インスタンスに導入し、1分間隔でCPU、メモリ、ディスクメトリクスを収集する。CloudWatch Composite Alarmで複数メトリクスの組み合わせ条件を設定し、アラーム状態でStep Functions State Machineを実行してSlack通知、Auto Scaling、CloudWatch Dashboard更新を順次処理する。CloudWatch Anomaly Detectionで過去データに基づく動的しきい値を設定し、30日間のメトリクス履歴分析を実行する
解答を見る
正解: A
CloudWatch Alarmは最も基本的で信頼性の高い監視ソリューションです。CPU使用率80%のしきい値設定は標準的な運用パターンであり、SNSトピックを中心としたファンアウト型の通知・アクション実行は、シンプルで保守性が高く、コスト効率的です。Lambda関数によるSlack通知は軽量で応答性が良く、Auto Scaling Groupとの連携も標準的なAWSサービス間連携パターンです。CloudWatch Dashboardは標準機能で30日間のメトリクス表示が可能で、追加コストが最小限です。
図解
問題集では全問にこのような図解が付いています。
他の選択肢について
B. CloudWatch Insightsは主にログ分析用のサービスであり、リアルタイムメトリクス監視には適していません。5分間隔のポーリングベースの監視は応答性が劣り、EventBridgeを使った複雑な並列処理は不要な複雑性を追加します。また、CloudWatch APIを使った動的ダッシュボード更新は開発・保守コストが高くなります。
C. Systems Manager OpsCenterは主にインシデント管理用であり、リアルタイムメトリクス監視には過剰な機能です。機械学習ベースの異常検知は高コストで、単純なCPU使用率監視には不要です。CloudWatch SyntheticsやX-Rayトレーシングも要件に対して過剰な機能であり、コスト効率性に欠けます。
D. CloudWatch Agent Enhanced Monitoringは詳細監視には有効ですが、基本的なCPU監視には標準メトリクスで十分です。Composite AlarmやStep Functions State Machineは複雑性を増加させ、Anomaly Detectionも単純なしきい値監視には不要な高コスト機能です。
参考
ポイント整理
CloudWatch AlarmとSNSを中心とした標準的な監視・通知・自動化ソリューションがこの問題のテーマです。正解の構成が選ばれる理由と、他の選択肢が適さない理由を押さえておけば、類似の問題にも対応できます。
問題の出典
この問題は Cloud Samurai — AWS認定 全13科目 問題集 から抜粋しました。
全13科目(CLF / SAA / SAP / DVA / DOP / SCS / ANS / MLS / DEA / AIF / MLA / COE / GAP)に対応した問題集で、合計2,400問以上を収録しています。
全問に今回のような図解が付いていて、「この構成はざっくりこういうこと」「この選択肢はここがダメ」というのが図を見ればわかるようになっています。試験対策では細かい仕様を暗記するより、まず全体像をつかむのが大事なので、そこを意識して作られています。
ANSやMLSのように日本語の教材が少ない科目もカバーしています。
一部の問題は無料で試せます。利用期間に応じた買い切り型(1ヶ月 / 3ヶ月 / 6ヶ月 / 12ヶ月)で、期間中は全科目・全問題にアクセスできます。問題はAWSのアップデートに合わせて定期的に見直されています。
