More than 1 year has passed since last update.

CloudWatchMetricsの基本的な操作とアラーム設定方法

Posted at 2024-04-27

はじめに

CloudWatch MetricsとAlarmは運用を基礎から支える大事なサービスだと思います。
前から気になっていたので、基本的な操作を確認しました。

各サービスの概念などはBlackBeltを参考にし、この記事ではマネコンでの操作をメモできればと思います。

CloudWatch Metrics

早速CloudWatch Metricsを触ってみます。
今回はlambda関数を実行することで自動収集されるメトリクスを利用して、
関数のエラー率、処理時間のMAX,MIN,AVGなどをグラフ化してみようと思います。

lambdaサンプル

index.js

exports.handler = async (event) => {
    // 基本の2秒待機
    await new Promise(resolve => setTimeout(resolve, 2500));

    // ランダムで最大1秒の追加待機時間
    const additionalWait = Math.random() * 1000; // 0から1000ミリ秒(1秒)のランダムな値
    await new Promise(resolve => setTimeout(resolve, additionalWait));

    return {
        statusCode: 200,
        body: 'Hello from Lambda!'
    };
};

index.js

exports.handler = async (event) => {
    return {
        statusCode: 200,
        body: 'Hello from Lambda!'
    };
};

index.js

exports.handler = async (event) => {
    throw new Error('アラーム検知テスト');
};

lambda関数のエラー率を計測する

マネコンからMetricsへアクセス

CloudWatchページからアクセスします。

計測したいメトリクスをグラフ表示させる

+、-ボタンをクリックすることで任意のメトリクスをフィルターできます。

作成したlambdaのメトリクスを選択します。

グラフを確認してみる

エラー率を確認するために、まずは全体実行数を表示させます。

作成したlambdaの「invocations」メトリクスを選択し、グラフ表示させました。
5回起動されたことが分かります。

他のメトリクスをグラフ上に表示する

同様に、エラーの数もグラフ上に同時に表示してみます。
メトリクスから、エラーの数を計測している「Errors」を選択します。

グラフ上に「invocations」「Errors」が同時に表示されました。
次はこれらの数をinputに、エラー率を計測してみます。

タブを切り替える

メトリクスを組み合わせて新たなメトリクスを表示させるには、数式機能を使います。

「グラフ化したメトリクス」タブに移動します。

数式を追加する

今回はエラー率を表示してみたいので、「Errors/invocations」の結果を表示させます。

数式を追加 > 一般 > パーセンテージを選択します。

新たに「式１」と書かれたメトリクスが表示されました。

数式を修正する

数式の内容が「invocations/Errors」になっているので修正します。

鉛筆マークから修正を行います。

ラベルなどを整える

ラベルなども変更できるため適宜修正します。

良い感じにエラー発生確率を確認できるグラフが完成しました！

lambda関数の処理時間を計測する

処理時間を取得する

続いて、処理時間のMAX,MIN,AVGを取得してみようと思います。

処理時間メトリクスである「Duration」をグラフ表示した後、
複製ボタンをクリックします。

統計属性を変更する

統計タブを変更し、DurationのMAX,MIN,AVGをそれぞれ表示してみました。

このように、一つのメトリクスでも、統計によってさまざまなデータのとり方ができることが確認できました。

グラフを保存する

メトリクスのグラフは、このままでは保存されません。
設定した内容を保存するためには、ダッシュボードにグラフを追加する必要があります。

アクション > ダッシュボードに追加を選択します。

ダッシュボードを作成する①

ダッシュボードが存在しない場合、新規作成を行います。

新規作成をクリックします。

ダッシュボードを作成する②

必要な項目を入力します。名前だけのようです。

作成をクリックします。

ダッシュボードに追加する

その他、適当に選択します。

問題ない場合、「ダッシュボードに追加」をクリックします。

追加されたグラフを確認する

CloudWatch > Dashboards > 作成したダッシュボードへと遷移し、グラフが保存されていることが確認できます。

Amazon CloudWatch Alarm

メトリクスをもとにリソースやプロダクトを監視し、問題がある状態と判断された場合、
Amazon CloudWatch Alarmを使用することで、SNSなどにアラートを上げることができます。

これも重要な機能なのでさわってみます！

特定状況でSNSへアラートを通知する

今回は、特定のスパン内に、lambdaのエラーが連続した場合、
アラートを発砲させるようなAmazon CloudWatch Alarmを作成してみます。

アラームを作成する

CloudWatch > アラームから、「アラームの作成」を選択します

メトリクスを選択する

メトリクスの選択をクリックします。

メトリクス画面と同様のUIが立ち上がります。
グラフ作成時と同様に、メトリクスを選択します。

今回はlambdaの「Errors」を選択しました。

データポイント

Amazon CloudWatch Alarmは、データポイントという単位で、一定期間のメトリクスを集計します。

データポイントには統計方法と期間が設定されており、メトリクスの集計値は、この統計方法と期間によって決定します。

例えば、統計方法が平均値、統計期間が5分の場合、
あるデータポイントの集計値は、最初のメトリクスが届いてから5分間に届いたすべてのメトリクスの平均値、ということになります。

データポイントは、「計測中のデータポイントが存在しない状態でメトリクスが届いてから作成される」ことに注意です。
publishされる頻度の低いメトリクスの場合、データポイントが新たに作られず、アラームの評価が変更されない状況が続く可能性があります。

アラームの条件を指定する

アラームはそれぞれ以下のような設定にしました。

統計 : 最小
データポイント内のデータをどう統計するか？を設定します。
今回はエラーの数は考慮しないため、最小を選択しています。
期間 : 一分
データポイントの統計収集期間を設定します。
条件 : １以上
データポイントとしきい値との比較条件です。
データポイントが1以上の場合、条件が満たされていると判断されます。
アラームを実行するデータポイント : 2/2
直近のデータポイント2つを確認し、
2つともアラーム条件を満たしている場合、アラームが実行されるように設定しています。