技術検証：AWS上のDatadog Agent導入済みWindowsサーバーで死活監視を実施し、アラートメールを設定してみた

Last updated at 2025-01-30Posted at 2025-01-30

はじめに

Datadogは、インフラやアプリケーションの監視を一元管理できるプラットフォームで、AWSやGCP、Azureとも簡単に統合できます。

今回は、Datadog Agentの導入が完了したので、実際に監視設定を作成する手順をまとめます。

システムの状態をリアルタイムで把握したい、インシデント対応をスムーズにしたいと考えている場合は、無料トライアルで試してみるのもおすすめです。

書こうと思ったきっかけ

受講しているITスクールのチーム開発において、今回は運用監視をDatadogで一元管理することにしました。

一部AWSのCloudWatchやLambdaといったサーバーレスアーキテクチャを構築していますが、基本的なリソース監視やログ監視はDatadogを活用する方針です。

その中で、今回トライアル期間を活用して実装を進めてみようと思い、改めてDatadogについてキャッチアップしていきます。

Datadogとは？

Datadog は、クラウドやオンプレミス環境の監視・分析を行うための SaaS型オブザーバビリティプラットフォーム です。

引用画像：https://www.datadoghq.com/ja/blog/network-performance-monitoring/

サーバー・コンテナ・アプリケーション・ネットワーク・セキュリティなど、システム全体のパフォーマンスをリアルタイムに可視化・監視できます。

Datadogに関する基本的な内容については、過去の記事でまとめていますので、そちらも参考にしてみてください。

実際にやってみた

ここでは、AWS上のWindowsサーバーにDatadog Agentが既に導入されていることを前提に進めます。

まだ導入が完了していない場合は、以下の記事で詳しく解説しているので、参考にしてください。

Datadog Agentの導入手順

監視対象の確認

まず、Datadog Agentが正しく動作しているかを、Datadogのダッシュボードで確認します。

手順

Datadogのダッシュボードにログイン
「Infrastructure」 → 「Hosts」 を開く
EC2インスタンスがリストに表示されていることを確認

ホスト一覧のスクリーンショット

さらに

CPU使用率やメモリ使用率をリアルタイムで確認
カスタムダッシュボードを作成して、必要なメトリクスを整理
アラート設定で異常を検知

リソースモニタリング画面のスクリーンショット

そもそも、監視定義（Monitor）とは？

監視定義（Monitor）とは、特定のメトリクス（CPU使用率、メモリ使用量、ネットワークトラフィックなど）に対してしきい値を設定し、異常時にアラートを発生させる機能です。

Datadogでは、さまざまな種類のモニターを作成し、システムの異常をリアルタイムで検知することが可能です。

主な監視タイプ（Monitor Types）

監視タイプ	説明
メトリクスモニター	CPU使用率やメモリ使用量など、リアルタイムのメトリクスを監視
ログモニター	指定した条件のログが記録された場合にアラートを発行
APMモニター	アプリケーションのリクエスト遅延やエラーレートを監視
ネットワークモニター	サーバーやAPIの疎通を監視（Ping監視、HTTP監視など）
インテグレーションモニター	AWS、Azure、GCPなどのクラウドリソースの異常を監視

Datadogで監視定義（モニター）を作成する方法

Datadogでは、モニター（Monitor）を作成することで、システムの異常を検知し、アラートを発生させることができます。

ここでは、ホストの死活監視（Host Monitor）を作成する方法を紹介します！

まず、Datadogのダッシュボードにログインし、「Monitors」メニューを開いて「New Monitor」をクリックします。

次に、「Host Monitor」を選択することで、ホストの状態を監視する設定を開始できます。

監視したいホストを host タグで指定

Datadogでは、「Pick hosts by name or tag」を使用して監視対象のホストをタグで指定できます。

手順

Datadogのダッシュボードにログイン
「Monitors」 → 「New Monitor」 を選択
「Pick hosts by name or tag」で監視対象のタグを指定
例: host:my-server（特定のホストを指定）

これにより、特定のサーバーを対象とした監視を簡単に設定できます。

ポイント

特定のタグを持つホストのみを監視対象にする場合 は、host タグを使用する。
監視対象を絞ることで、不要なアラートを防ぎ、効率的な監視が可能。

今回は、アラートの条件はデフォルトの設定を使用し、カスタムメッセージを以下のように作成して入力しました。

以下のメッセージは、一例としてのテンプレートになります。

🚨【アラート】ホスト {{host.name}} が応答しません 🚨

📌 **監視対象**: {{host.name}}
📌 **IP アドレス**: {{host.ip}}

{{#is_alert}} 
⚠️ **可能な原因**
1. サーバーがダウンしている可能性があります。
2. ネットワーク接続に問題が発生している可能性があります。
3. Datadog Agent が停止している可能性があります。

🛠 **対応方法**
- AWS マネジメントコンソールで該当ホストの状態を確認  
- SSH で接続できるかチェック  
- Datadog Agent のステータスを確認 (`sudo systemctl status datadog-agent`)  

🔍 **追加情報**
- Datadogダッシュボード: [ホスト詳細](https://app.datadoghq.com/infrastructure?filter=host:{{host.name}})
- Ops Guide: [トラブルシューティング手順](http://ops.myorg.com/guide)

🔔 **通知**: @xxx@gmail.com 
{{/is_alert}}

このテンプレートを活用することで、障害発生時に迅速に対応できるようになります。

必要に応じて、環境に合わせたメッセージのカスタマイズを行ってください。