そもそも、監視とは
継続的かつ定期的にシステムが正常稼働するためにメトリクス(リソース、プロセス)などを監視し維持や向上をさせること。また、異常を検知した際には管理者へ通知し、復旧させること。
Datadogの要素ざっくり
・Agent側
・Dashboard側
・monitor側
Agent側
・どうやって監視対象からイベントとメトリクスを取得するの?(HOW)
OSから出力されているファイルなどから取得をする。/proc/statや/proc/diskstatsなどから
・どこからメトリクスを取得からするの?(WHERE)
Datadog AgentがインストールされているホストもしくはDatadog Agentがインストールされているホストから対象から
メトリクスを取得する
https://docs.datadoghq.com/ja/getting_started/agent/
※URL監視する場合は、遠隔からになるため
・いつメトリクスを送信するの?(WHEN)
各監視項目によって、様々になる以下参照
https://docs.datadoghq.com/ja/developers/guide/data-collection-resolution-retention/
基本的には、15~20秒間隔で収集
https://docs.datadoghq.com/ja/getting_started/agent/
・何のメトリクスを取得するの?(WHAT)
デフォルトでは以下のインテグレーションが対象となる
https://docs.datadoghq.com/ja/getting_started/agent/
・だれがメトリクスを取得するの
Agentです
Dashboard側
ダッシュボードには、2種類ある
・タイムボード 調査等で使用
・スクリーンボード ステータス確認等で使用
カウンタとゲージ
・カウンタ 蓄積のイメージ
・ゲージ 計測器のイメージ
カウンタは、増加量がわかりやすく、ゲージは変化量がわかりやすい
monitor側
・メトリクスをAgentが取得して、DatadogにHTTPSなどで送信される。
※このDatadogはマルチテナントで構成されており、APIキーによって識別される
monitorで閾値を設定をして、管理者へどのようにアラートを通知するか、など設定が可能