ユーザー毎に通知手段と通知ルール(Notification Rules)を設定します。
重要な通知を見落とすことがないよう、High-Urgency のインシデントについては、複数の手段で繰り返し通知を行うことを推奨します。
ユーザーの追加
(1) People > Users でユーザー設定画面を開き、画面右上の 「+ Add Users」ボタンをクリック
(2) Name/Email/License/Base Role を記入・選択し、「Add」をクリック
主なBase Roleの権限 (参考: Advanced Permissions)
- Manager: On-call Schedule, Escalation Policy等の設定の作成、更新、削除のフルアクセスを持つ (Account Owner/Global Adminにより、権限の制限が行われる場合あり)
- Responder: 設定の変更はできないが、Oncall Scheduleの上書き、インシデントの起票の他、インシデント対応を行うために必要な権限を持つ
- Observer: On-call Scheduleの上書きとインシデント起票ができない以外は、Responderと同じ。
(3) 招待メールのリンクをクリックし、Sign Upを完了する
10文字以上のパスワードを設定しないと、「Sign Up」ボタンをクリック後にエラーになります。
ユーザー毎の通知先とNotification Rulesの設定
(1) People > User でユーザー設定画面を開き、設定を行うユーザーをクリック
(2) 通知に利用する連絡手段(電話/SMS/Email)の情報を登録。
モバイルアプリはスマホにダウンロードし、アプリを開いてログインする。
(3) Notification Rules タブを開き、Hgih-urgency インシデントがアサインされた場合の通知方法を設定する
設定例:
- 直ちに Email/アプリ で通知
- 2分後に 電話/アプリ/SMS で通知
- 4分後に 電話/アプリ/SMS で通知
ベストプラクティス
High-Urgencyのインシデント通知には、少なくとも3つの通知手段を設定する
- 重要な通知にすぐ気付けるよう、モバイルアプリ/電話/SMSによる通知を組み合わせる
- バックアップの担当者にエスカレーションされる前に気付けるよう、Notification Rulesで繰り返し通知を行う設定にする
- 前述のNotification Rulesの設定例は、Escalation Timeout が5分の場合を想定しています。
インシデント検知から5分が経過すると、バックアップの担当者に通知されてしまうため、「直後/2分後/4分後」に繰り返し通知を行い5分以内にAcknowledgeできるようにしています。
- 前述のNotification Rulesの設定例は、Escalation Timeout が5分の場合を想定しています。
モバイルアプリを活用する
- モバイルアプリを利用することで、PCの前にいなくても迅速に必要なアクションを取ることができます
- アクションの例: Acknowledge, Reassign, Escalate, 診断スクリプトの実行等
- スマートフォンのサイレントモード(Do Not Disturb)を上書きする設定も可能です。High-Urgencyの通知に対して設定することで、「重要な通知に音が鳴らず気付けなかった」という事態を回避できます。
- スマートフォンにアプリをインストールすると、PagerDutyが電話/SMS通知に使う電話番号がvCardとして登録・更新されるようになります。電話/SMSによる通知を受けた際、それがPagerDutyからであることが分かりやすくなります。
Low-Urgencyのインシデント通知は、Emailのみにする
- 緊急性が高くないインシデントに対して、プッシュ通知を行うと業務や睡眠の邪魔になってしまいます
- Emailのみの通知にしておき、担当者が都合のいいタイミングで対応できるようにします
- JIRA等のチケット管理ツールとPagerDutyを連携させることで、チケットを起票しておき後日順次対応することも可能です
オンコール期間中、「全てのインシデントに対して、自分が最初にAcknowledgeしなければいけない」と気負いすぎない
- 通勤時間や業務への没頭(その他必要な気晴らしなど)は人生の事実であり、時にはエスカレーションされる前に対処することが不可能な場合があります
- そのためにバックアップのOn-call ScheduleとEscalation Policyがあります
PagerDuty設定ガイド 目次
検知編 | トリアージ編 | 動員編 | 解決編 | 学習編
- 通知を受けるまでの設定の流れ
- ユーザーの追加と通知設定 << イマココ
- On-call Scheduleの作成
- Escalation Policyの作成
- Serviceの作成
- 通知テストの実施
- Slack等との連携