PagerDuty設定ガイドは、主に管理者がどのようにPagerDutyを設定・管理できるかについて説明します。管理者ではない、PagerDutyを利用してインシデント対応を行うユーザー(Responder)の方は、こちらの PagerDuty利用ガイド - Responder編 をご覧ください。
PagerDutyとは
2009年に米国で創業した「インシデント対応ソリューション」という分野を創った会社です。システム障害などの「インシデント」が発生した際に、AIや自動化を駆使して速やかな復旧と運用担当者の負担軽減を実現します。
様々な監視ツールやコミュニケーションツール、チケット管理ツール等が混在していたとしても、PagerDutyと連携させることでインシデントがシステム全体のどこに影響しているのか、リアルタイムで共有することができます。
また、対応履歴やMTTA/MTTRなどの運用指標が可視化されるため、継続的に運用プロセスを見直して改善するサイクルを回せるようになります。
本記事「動員編」の位置づけ
この「動員編」では、PagerDutyから通知を受けるために必要な、基本的な設定をまとめます。PagerDutyの検証およびProduction環境の構築を行う際は、まずこの章の設定項目から手を付けることをおすすめします。
PagerDutyの機能の中では、以下中央の「動員」にあたる部分になります。
「動員編」を完了すると、できるようになること
- モバイルアプリ・電話・SMS・Email・チャット(Slack等)を組み合わせて、通知を行うことができる
- Service/Escalation Policy/On-call Schedule/Usersの関係性と役割がわかる
- Serviceをどのような単位で定義すればいいのかわかる
- 通知テスト(PagerDutyコンソールからインシデントを起票して、通知を受ける)ができる*
- Chatツール(Slack/MS Teams/Google Chat/Cisco WebEx等)で通知を受けたり、ChatツールからPagerDutyを操作できる
*監視ツール等からのアラートをサービスに紐づけ、インシデントを自動作成する方法については「検知編」を参照ください。
PagerDuty設定ガイド 目次
検知編 | トリアージ編 | 動員編 | 解決編 | 学習編
- [概要: 通知を受けるまでの設定の流れ] << イマココ
- ユーザーの追加と通知設定 - 通知を受ける担当者と通知方法を設定する
- On-call Scheduleの作成 - (Optional) 担当者がローテーションを組む場合には、On-call Scheduleを作成する
- Escalation Policyの作成 - どのような順番で担当者をインシデントにアサインするか設定する
- Serviceの作成 - Serviceを定義し、Escalation Policyを紐付ける
- 通知テストの実施 - PagerDutyコンソールからインシデントを起票し、通知を受ける
- Slack等との連携 - ChatツールでPagerDutyの通知を受けたり、ChatツールからPagerDutyを操作する