LoginSignup
33
26

More than 3 years have passed since last update.

DatadogでAWSイベントを定期監視する

Last updated at Posted at 2021-02-19

金曜の夜に見たくないアラートが。

Screen_Shot_2021-02-20_at_8_40_26.png

続いて複数プロダクトで強制シャットダウン祭り。

Screen Shot 2021-02-20 at 8.08.12.png

DatadogでAWSイベントを監視していたのでアラートは飛んできたけど、全てのイベントが通知されてないことに気付いた。8イベント中、最初と最後の2件しかきてない。

Screen Shot 2021-02-20 at 8.04.24.png

これよく考えたら当前で、障害自体は5時間近く続いた1イベントなので、障害中のイベントは一切飛んでこない。

Screen Shot 2021-02-20 at 8.22.33.png

中間イベントも送信したかったら監視モニターにある「automatically resolve...」なんちゃらのオプションを有効化しておけば良い。例えば1時間後にアラートを自働で閉じて、その後も障害が続く場合は続報も飛ばしてくれるようになる。

Screen_Shot_2021-02-20_at_8_10_58.png

Terraformならこんな感じ。

resource "datadog_monitor" "aws_service_check" {
  name                = "AWS service check"
  type                = "service check"
  message             = local.message
  query               = "'aws.status'.over('region:ap-northeast-1').by('region','service').last(2).count_by_status()"
  renotify_interval = 60

  thresholds = {
    critical = var.aws_service_check["thresholds.critical"]
  }

  tags = ["aws"]
}

朝6時にようやく落ち着いた。寝る。

Screen_Shot_2021-02-20_at_8_52_18.png

33
26
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
33
26