5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DatadogのモニターとPagerDutyのアラートを連携するにあたって困ったこと

Last updated at Posted at 2025-03-11

はじめに

みなさんこんにちは!今回は、DatadogのMonitorからの通知をPagerDuty側でAlertとして連携する際に困ったことがありましたので、原因と解決策についてご紹介します。

前提

DatadogとPagerDutyにおける前提は以下の通りです。

  • Datadog Monitorはそれぞれ以下を監視
    • Monitor①:クラウドコストを監視
    • Monitor②:SLOを監視
  • Monitorからの通知は、PagerDutyのService Integrationを経由して連携

今回発生した事象

今回発生した事象は、Monitor①、②の通知を以下の条件で発報した状況において、「2つのMonitorからの通知がPagerDutyでは1つのAlert(Incident)として認識されてしまう」というものでした。

  1. Monitor①の通知が発報
  2. Monitor①に紐づくAlert①(Incident①)はOpenのまま、Monitor②の通知が発報

DatadogとPagerDutyの関係を以下に示します。当初は青枠のように2つのMonitorは別々のAlert(Incident)として認識される事を期待していましたが、実際は赤枠のように2つのMonitorが1つのAlert(Incident)にまとめて認識されてしまいました。

image1.drawio.png

もちろん、根本原因が共通しており対応が同じ通知は集約することでノイズアラート低減などの効果はあると思います。ただ、今回のクラウドコストとSLOのような、明らかに対応の異なる通知が1つに集約されてしまうことで、インシデントの見逃しや対応状況を適切に管理できない可能性があります。

原因

原因としては、2つのDatadog Monitorからの通知が、PagerDutyでは同じAlert Keyになっていたことが挙げられます。上記の条件でDatadog Monitorの通知を発報させPagerDutyで確認したところ、Alert Keyが同じである事を確認出来ました。インシデントの番号(# XXX)が同じ値であることからも1つのインシデントとしてまとめて認識されていることが分かります。

image2.drawio.png

PagerDutyのナレッジベースのインシデントの重複排除に関する記載からも、今回の事象はAlert Keyが同じであったことが原因と考えられます。機械翻訳したものを以下に示します。(上記スクリーンショットのAlert Keyがdedup_keyに対応します)

dedup_key / incident_key は、トリガーイベントを適用する場所を示す大文字と小文字を区別する識別子であり、後続のアラート/インシデントの重複を排除します。

  • このキーを持つ未解決のインシデントがない場合は、新しいインシデントが作成されます。
  • 一致するキーを持つ未解決のインシデントがある場合、新しいイベントは、追加のトリガー ログ エントリとしてそのインシデントのアラート ログに追加されます。
    ・・・

解決策

DatadogのTag機能、PagerDutyのService Orchestration機能を使用して、2つのDatadog Monitorに対して別々のAlert Keyを割り当てることで今回の事象を解決しました。それぞれ実施したことを以下に示します。

  • Datadog
    Monitorを一意に識別できる文字列をTagに付与。(今回はMonitor IDを付与。)

  • PagerDuty
    Service Orchestrationにて、Alert KeyをDatadogで付与したTagに書き換えるルールの実装。

通知からインシデントの起票までの概要を以下に示します。Datadog、PagerDutyそれぞれの設定画面は次項に示します。

image3.drawio.png

PagerDutyのService Orchestrationで実装した部分はGlobal Orchestrationでも実装可能です。

Datadogの設定画面

DatadogではMonitor IDをタグ情報に付与しています。

image4.drawio.png

PagerDutyの設定画面

PagerDutyでは、まず正規表現を用いてDatadogで付与したTagを抽出し変数として格納しています。次に、dedup_keyを変数に書き換えています。

image5.drawio.png

結果

PagerDutyにて確認したところ、Alert KeyがDatadogで設定したTagに書き換えられていることを確認出来ました。インシデントの番号(# XXX)が異なる値であることからも別々のインシデントとして認識されていることが分かります。

image6.drawio.png

終わりに

いかがだったでしょうか。DatadogのモニターとPagerDutyのアラートを連携するにあたって困ったことと解決策についてご紹介しました。もしこの記事がお役に立ちましたら、「いいね」「記事のストック」をお願いします!


  • Datadog は、米国その他の諸国における Datadog Inc. またはその関連会社の商標です。
  • PagerDuty は、米国その他の諸国における PagerDuty, Inc. またはその関連会社の商標です。
  • その他、記載されている会社名および商品・製品・サービス名は、各社の商標または登録商標です。
5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?