なぜかくのか

Auto ScaleするAWS EC2インスタンスの監視運用をするにあたって
気になることが多々あるかと思います。

スケールアウトするたびに増えたサーバーの監視設定はしたくない
スケールインするたびに死活監視のアラートが飛んできたらつらい
スケールアウトしたホストの数全部課金されるようだときびしい

Datadogでは上記の問題たちを特に気にしなくて済んでとてもよかったです。
という覚書です。

かいつまんで、Datadogのいいところ

スケールアウト都度の監視設定追加は不要

Dataodogの監視アラート設定はホスト単位ではなく
監視対象のサーバに付与したタグを使ってグルーピングした単位で行うので、
監視対象のインスタンスに適切なタグの設定さえされていれば
サーバが増えようとも都度の監視設定は不要です。

スケールインで消えたサーバのアラートは自動ミュート

Integrationを設定したAWSアカウント内のスケールイベント発生状況を検知し、
スケールインにより削除されたサーバは自動でアラートをミュートしてくれます。
なので、いちいち死活監視のアラートを気にすることはありません。

（そして一定時間経過後、それまでのモニタリングデータは残したまま管理ホスト一覧から退場もしてくれてお掃除要らず）

課金について

サーバが停止し、メトリクスの送信がなくなった時点で課金対象からは除外されるようです。
また、スケールアウト→スケールインを繰り返してサーバの延べ台数が増えてしまった場合も
課金対象は起動したサーバ台数の合計ではなく、月内で監視対象サーバ数が最大だったタイミングの台数です。

汚い図で恐縮ですがこんな感じ

課金の判定基準は、メトリクスデータをDatadog側で受信しているかどうかです。

The billable count of hosts and containers is calculated at the end of the month using the maximum count (high-water mark) of the lower 99 percent of usage for those hours.

作業概要メモ

各項目、具体的な実装手順は説明せず公式ドキュメントを貼るのみにとどめます。

AutoScalingグループを作成

あらかじめAMIにはDatadogのAgentを仕込んでおく
- AMI作成の公式ドキュメント
- AuroScalingグループ作成の公式チュートリアル
- Datadog Agentインストール手順
  - 要ログインのためスクショを添付。コマンド一発でインストール可能
後述の監視設定のため、AutoScalingグループのタグ設定が必要です
ex )