PagerDuty Advent Calendar 6日目の記事です。
この「トリアージ編」では、監視ツールからイベントを受信した後、インシデントへの一次対応を自動化する方法を説明します。
設定の順番としては、「動員編」「検知編」の後に、この「トリアージ編」を進めることをおすすめします。
「トリアージ編」を完了すると、できるようになること
- AIを活用し、複数のアラートを1つのインシデントでまとめて管理できる
- 一過性のアラートをAIで検知し、不要な通知を削減できる(通知の自動一時停止)
- イベントに対するルールを作成し、対応を自動化する(自動診断、自動復旧、通知レベルの変更等)
PagerDutyトリアージ機能の構成
- ノイズ削減: AIを活用して関連するアラートを集約したり、不要な通知を削減します。
- ルールによる自動処理: イベントに対するルールを作成し、イベントの内容に応じて通知レベルを変更したり、次のMachine Responseを実行します。
- Machine Response1: 診断や復旧、復旧後の正常性確認などの処理をジョブとして作成しておき、自動実行します。
一次対応の自動化例
アーキテクチャのモダン化が進み、システムは日に日に複雑化しています。
監視センター/NOCなどでオペレーターの方が人手で行う場合、迅速に対応することが難しくなってきます。
PagerDutyのトリアージ・動員の機能を利用すれば、これまで人手で行っていた多くの作業を自動化できます。これによって開発などのより重要な業務に、リソースを集中させることが可能になります。
以降の記事では、それぞれの機能の設定方法を説明します。
PagerDuty設定ガイド 目次
検知編 | トリアージ編 | 動員編 | 解決編 | 学習編
- [一次対応を自動化する] << イマココ
- Alert Groupingでアラートノイズを削減する
- Auto Pauseで一過性アラートの通知を削減する
- Event Orchestrationでアラートへの対処を自動化する
- 診断や復旧作業を自動化する
参考リソース
-
Machine Responseは「トリアージ」だけでなく、「協力/解決」のステップでも利用できます。「トリアージ」のステップでは、アラートの内容に応じてEvent-Drivenで自動実行させるのに対し、「協力/解決」では、担当者がジョブを選んで実行させます。本記事ではトリアージ編の中で解説します。 ↩