LoginSignup
8
3

PagerDuty 設定ガイド (トリアージ編1) - 一次対応を自動化する

Last updated at Posted at 2023-12-05

PagerDuty Advent Calendar 6日目の記事です。
この「トリアージ編」では、監視ツールからイベントを受信した後、インシデントへの一次対応を自動化する方法を説明します。

IncidentLifeCycle2_Triage.png

設定の順番としては、「動員編」「検知編」の後に、この「トリアージ編」を進めることをおすすめします。

「トリアージ編」を完了すると、できるようになること

  1. AIを活用し、複数のアラートを1つのインシデントでまとめて管理できる
  2. 一過性のアラートをAIで検知し、不要な通知を削減できる(通知の自動一時停止)
  3. イベントに対するルールを作成し、対応を自動化する(自動診断、自動復旧、通知レベルの変更等)

PagerDutyトリアージ機能の構成

Triage_LifecycleFlow.png
トリアージ機能は大きく3つの機能群に分かれます:

  1. ノイズ削減: AIを活用して関連するアラートを集約したり、不要な通知を削減します。
  2. ルールによる自動処理: イベントに対するルールを作成し、イベントの内容に応じて通知レベルを変更したり、次のMachine Responseを実行します。
  3. Machine Response1: 診断や復旧、復旧後の正常性確認などの処理をジョブとして作成しておき、自動実行します。

一次対応の自動化例

アーキテクチャのモダン化が進み、システムは日に日に複雑化しています。
監視センター/NOCなどでオペレーターの方が人手で行う場合、迅速に対応することが難しくなってきます。
triage_before.png

PagerDutyのトリアージ・動員の機能を利用すれば、これまで人手で行っていた多くの作業を自動化できます。これによって開発などのより重要な業務に、リソースを集中させることが可能になります。
triage_after.png

以降の記事では、それぞれの機能の設定方法を説明します。

PagerDuty設定ガイド 目次

検知編 | トリアージ編 | 動員編 | 解決編 | 学習編

  1. [一次対応を自動化する] << イマココ
  2. Alert Groupingでアラートノイズを削減する
  3. Auto Pauseで一過性アラートの通知を削減する
  4. Event Orchestrationでアラートへの対処を自動化する
  5. [PagerDuty自動化機能の全体像] 近日公開
  6. [Automation ActionsでScriptを自動実行する]
  7. [Runbook Automationで複雑なワークフローを自動実行する]

参考リソース

  1. Machine Responseは「トリアージ」だけでなく、「協力/解決」のステップでも利用できます。「トリアージ」のステップでは、アラートの内容に応じてEvent-Drivenで自動実行させるのに対し、「協力/解決」では、担当者がジョブを選んで実行させます。本記事ではトリアージ編の中で解説します。

8
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
3