TerraformでDatadogのMonitorを書く #Terraform

これは何

TerraformでDatadogのMonitorを書いた時のメモです。
各値がよくわからんなあと思ったので、まとめました。

記述例

#monitor
resource "datadog_monitor" "keepalive" {
  name    = "[${var.project_name}][EC2] Linux: 死活監視　"
  type    = "service check"
  message = var.message
  query   = "\"datadog.agent.up\".over(\"datadog:enabled\",\"${var.project_account}\").by(\"host\").last(2).count_by_status()"
  monitor_thresholds {
    ok       = 1
    warning  = 1
    critical = 1
  }
  notify_no_data    = true
  no_data_timeframe = 2
  new_host_delay    = 300
  renotify_interval = 0
  timeout_h         = 0
  include_tags      = true
  notify_audit      = false
  tags              = ["service:${var.project_name}"]


}

解説

nameはDDのモニターの名前です。
自分はここに、案件名などの変数を別で定義して、ここに入れるようにしてます。

typeは、モニターの種類ですね。
＊モニタータイプは、一度作成したら変更はできません。
性質に合わせて、以下から選ぶ模様。

composite, event alert, log alert, metric alert, process alert, query alert, rum alert, service check, synthetics alert, trace-analytics alert, slo alert, event-v2 alert.

【選び方】

拾いたいもの(?)	Monitor Type
異常検知	query alert
APM	query alert または trace-analytics alert
複合条件	composite
カスタム	service check
イベント	event alert
予測値	query alert
ホスト	service check
インテグレーション	query alert または service check
ライブプロセス	process alert
ログ	log alert
メトリクス	metric alert
ネットワーク	service check
外れ値	query alert
プロセス	service check
RUM	rum alert
SLO	slo alert
Watchdog	event alert
event-v2	event-v2 alert

参考
https://docs.datadoghq.com/ja/api/latest/monitors/
https://registry.terraform.io/providers/DataDog/datadog/latest/docs/resources/monitor

messageは指定した閾値を超えたときに飛んでくる通知に含める文言ですね。
複数モニターで同じ文言を設定する場合は、変数定義しておくといいかも知れません。

queryは、知りたい値があるとき、監視対象に送る文字列、というイメージです。

【今回書いたクエリ算定式】
query   = "\"datadog.agent.up\".over(\"datadog:enabled\",
\"${var.project_account}\").by(\"host\").last(2).count_by_status()"

【公式算定式の例】
query = "check".over(tags).last(count).count_by_status()

check：チェックする名前。
→例 datadog.agent.up
Datadog Agent は、ステータスが OK の datadog.agent.up というサービスチェックを報告します。

tags：引用符で囲まれた1 つ以上のタグ (カンマ区切り)、または “*"。
→例 .over("env:prod", "role:db")
今回書いたクエリでは、
datadog:enabled
${var.project_account}
by(\"host\")
→hostに付けられた、datadog:enabled、${var.project_account}というタグを拾ってくる、というイメージでしょうか。

count：最大しきい値 (options で定義) 以上である必要があります。
上限値は 100 です。
→例　ステータス 1 を critical、ステータス3 を OK、ステータス2 を warn と通知する場合は、count を 3 にする必要があります。

count_by_status()は、ググっても出てこなかったので、よくわかりませんでしたが、
自分の中では、対象のマシンからステータスをカウントする、みたいな感じかなあと理解してます。
（わかる方いれば教えてください。mm）

時間がなくて、考える余裕がない！でもコードで一応管理したい！という方は、GUIでQuery算出して、それをTFに入れ込む、というのもアリかも知れません。

monitor_thresholdsはモニターの閾値です。

notify_no_dataは、データの報告が停止したときに、このモニターが通知を行うかどうかですね。
ここではtrueでOnにしています。

no_data_timeframeは、データが報告されなくなってからモニターが通知するまでの時間を示す分単位の時間を入れます。Datadogは、メトリックアラートの場合は最低でもモニタのタイムフレームの2倍、サービスチェックの場合は2分を推奨しています。ここでは2分にしています。

new_host_delayは、モニター結果の評価を開始する前に、ホストが起動し、アプリケーションが完全に開始するまでの時間（秒）です。正の整数でなければなりません。

renotify_intervalは、モニターが現在の状態を再通知するまでの、最後の通知からの経過時間（分）です。解決していない場合のみ再通知します。

timeout_hは、モニターがデータを報告しない状態が何時間続くと、トリガー状態から自動的に解決されるかを示します。

include_tagsは、このモニターからの通知が自動的にそのトリガータグをタイトルに挿入するかどうかを示す値です。trueにしています。

notify_auditは、タグを付けたユーザーにこのモニターの変更を通知するかどうかを示す値です。

tagsは、モニターにつけるタグですね。

総じて

今の所、DDのクエリ算定がまだしっくりきていないなあという感じです。
まあこれは書いてれば分かってくるのかも？
時間がないときには、DDのGUIベースで算定もできるので、そこまで困ることもないのかな、と思ったりするのでした。