CloudWatch アラームの欠落データの処理の設定
に記載されている表がぱっと見で理解できなかったので解説します。
割とニッチな内容ですしAWSに対するある程度の知見がある方向けの記事です。
目次
・言葉の説明
・評価期間に欠落したデータがあったらどうなるか
・missingについて解説 & ignoreについて表で捕捉
今回出てくる言葉の説明(ざっくり)
欠落したデータ
→ cloudwatchで取得できなかったデータ
[Evaluation Periods (評価期間)]
→ アラームの状態を決めるまでにかかる期間(またはデータポイントの数)
[Datapoints to Alarm (アラームを実行するデータポイント)]
→ アラームの状態が「ALARM」に移るためのボーダーライン
notBreaching
→ 欠落データポイント:「良好」
breaching
→ 欠落データポイント:「不良」
ignore
→ 欠落データポイント:「無効」
→ 前の状態を意識すればおのずと理解できる
missing
→ アラーム評価範囲内のすべてのデータポイントがない場合、アラームは INSUFFICIENT_DATA に移行
→ 振る舞いが特殊
評価期間に欠落したデータがあったらどうなるか
[結論]:評価期間が伸び、再評価される。
-例1-
下で解説しますが条件は以下です
[評価期間] : 3
[アラームを実行するデータポイント]:3
[伸びた結果の評価期間]:5
[0]:「良好」
[X]:「不良」
[-]:「欠落」
-解説-
@@@@ざっくりいうと@@@@
直近3つのデータで判断 → 欠落してるんで直近5つのデータで判断 → それでも欠落してるんで欠落しているデータを自分が設定したルールにしたがって判断
@@@@@@@@@@@@@@@@
細かく説明すると以下の通り
そして今回の場合、ルール以下のように判断できる
①
[5つのデータの評価できる個数] → 評価できるデータが3つあり評価できる
②
[5つのデータの評価できる個数] → 評価できるデータが1つしかないため2つ評価する必要がある
③
[5つのデータの評価できる個数] → 評価できるデータが1つもないため3つ評価する必要がある
④
[5つのデータの評価できる個数] → 評価できるデータが4つあり直近の3つのデータを評価する
⑤
[5つのデータの評価できる個数] → 評価できるデータが1つしかないため2つの評価する必要がある
実質
データポイント | 欠落データポイント数 | MISSING | IGNORE | BREACHING | NOT BREACHING |
---|---|---|---|---|---|
0 - X - X | 0 | ALARM | ALARM | ALARM | ALARM |
- - - - 0 | 2 | OK | OK | - - X X 0 | - - 0 0 0 |
- - - - - | 3 | - - - - - | 現在の状態を維持 | - - X X X | - - 0 0 0 |
0 X X - X | 0 | ALARM | ALARM | ALARM | ALARM |
- - X - - | 2 | - - X - - | - - X X X | - - X 0 0 |
では同様に例2も示してみます。
-例2-
[評価期間] : 3
[アラームを実行するデータポイント]:2
[伸びた結果の評価期間]:5
[0]:「良好」
[X]:「不良」
[-]:「欠落」
-解説-
①
[5つのデータの評価できる個数] → 3つあり評価できる
②
3つあり評価できる(評価期間を延ばす必要がない)
③
[5つのデータの評価できる個数] → 評価できるデータ:2つ・再評価するデータ:1つ
④
[5つのデータの評価できる個数] → 評価できるデータ:1つ・再評価するデータ:2つ
⑤
[5つのデータの評価できる個数] → 評価できるデータ:1つ・再評価するデータ:2つ
missingについて解説 & ignoreについて表で捕捉
missingについて
すべてのデータが欠落 :INSUFFICIENT_DATA
次の最新データが 0 の場合アラームにならない可能性がある :OK
伸びる前の評価期間の中で一番古いデータが X ・ その他データは欠損 :ALARM
前の状態を意識すればおのずと理解できる
ignoreについて
現在の状態を維持するので前の状態を意識すればおのずと理解できます
-例1-
実質以下のようになります
データポイント | 欠落データポイント数 | MISSING | IGNORE | BREACHING | NOT BREACHING |
---|---|---|---|---|---|
0 - X - X | 0 | OK | OK | OK | OK |
- - - - 0 | 2 | 次のデータが0の時ALARMにならない → OK | 今はALARMになるほど X がない → OK | - - X X 0 | - - 0 0 0 |
- - - - - | 3 | すべて欠落している → INSUFFICIENT_DATA | 3つ前の状態を考えるとX X X - - となる可能性があるのでOKとはかけない → 現在の状態を維持 | - - X X X | - - 0 0 0 |
0 X X - X | 0 | ALARM | ALARM | ALARM | ALARM |
- - X - - | 2 | 評価期間が3で3番目のデータがX・その他データが欠損 → ALARM | 2つ前の状態を考えるとX X - - X の可能性があるのでOKとは書けない → 現在の状態を維持 | - - X X X | - - X 0 0 |
-例2-
データポイント | 欠落データポイント数 | MISSING | IGNORE | BREACHING | NOT BREACHING |
---|---|---|---|---|---|
0 - X - X | 0 | ALARM | ALARM | ALARM | ALARM |
- 0 0 X 0 X | 0 | ALARM | ALARM | ALARM | ALARM |
- 0 - X - - | 1 | 次のデータが0の時ALARMにならないかも→OK | OK | - 0 - X - X | - - 0 0 0 |
0 - - - - 0 | 2 | OK | OK | ALARM | OK |
- - - - X - | 2 | 評価期間が2で2番目のでデータがX・その他データが欠損→ALARM | 現在の状態を維持 | - - X X X | - - X 0 0 |
参考元:
https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html