ノイズ削減機能の1つ、Auto Pause(Transient Alerts)機能について説明します。
Auto Pause機能とは
自動復旧する可能性があるアラートをAIで特定し、担当者への通知を一定時間差し止める機能です。
例えば以下のアラートは4:10にトリガーされましたが、AIがこれまでの履歴を基に自動復旧する可能性が高いと判断し、5分間通知を差し止めました。
2分後の4:12に復旧を知らせるEvent1を受信したため、通知をせず(インシデントを起票せず)にアラートのステータスをResolvedに変更しています。
(もし5分後の4:15になっても復旧しなかった場合は、インシデントを起票し担当者に通知を行います。)
不急不要のアラートの通知を差し止めることにより、担当者の負担を減らすことが可能です。また、どのアラートが自動復旧する可能性があるかについては、AIが過去の履歴から自動判定してくれるため、設定やメンテナンスの手間もかかりません。
Auto Pauseの設定
Auto Pauseの設定はService毎に行います。
Services > Service Directory を開き、設定を行うServiceを選択します。
Serviceの詳細画面が開いたら、Settingsタブを開きます。
Auto-pause incident notificationsにチェックを入れ、通知を差し止める時間を指定します。
Save Changesをクリックし、設定を反映します。
Auto Pauseされたアラートの確認方法
全てのアラートは Incidents > Alerts から確認できます。
(Auto PauseによるSuspended状態のアラート、ならびにAuto Pause後に自動復旧したアラートについては、紐づいているインシデントがないため、インシデント一覧画面からは辿れません。)
アラートのSummaryをクリックすると、アラートの詳細画面が開きます。
アラート詳細画面のAlert Logでは、そのアラートに紐づくEvent1が表示されます。
アラートが一過性かどうかは、どのように判断しているのか
同一アラート2において、Trigger Event3を受信した後にResolve Event4を受信する頻度を元に判断しています。
どの程度の頻度で一過性のアラートと判定するかについては公開されていませんが、本記事執筆時点で試す限り、短い時間で何度もTrigger/Resolveを繰り返してもAuto Pauseの対象とはならず、30-60分程度間隔を空けて一晩繰り返すとAuto Pauseの対象になりました。
検証する際の参考にしていただければと思います。
- Auto Pause 再現できず: 30分間に数十回Trigger/Resolveを繰り返す
- Auto Pause 再現: 30-60分毎にTrigger/Resolveを1セットとして、10時間程度繰り返す
PagerDuty設定ガイド 目次
検知編 | トリアージ編 | 動員編 | 解決編 | 学習編
- 一次対応を自動化する
- Alert Groupingでアラートノイズを削減する
- [Auto Pauseで一過性アラートの通知を削減する] << イマココ
- Event Orchestrationでアラートへの対処を自動化する
- 診断や復旧作業を自動化する
参考リソース
-
event_action の値が trigger の Event。AlertをTriggerします。 ↩
-
event_action の値が resolve の Event。AlertをResolveします。 ↩