PagerDutyとは
PagerDutyは、システムやアプリケーションの監視、障害通知、および対応プロセスを管理するためのクラウドベースのインシデント管理ツール。
参考:https://www.pagerduty.com/platform/incident-management/analytics/
そもそもインシデント管理ツールとは
インシデントは、「情報漏洩」や「ウイルス感染」といったセキュリティ上の「インシデント」だけではなく、「サービスにアクセス・ログインできない」「サービス利用中に処理落ちしてしまう」といった利用上の不具合を含むのが一般的。
つまりインシデント管理ツールは、「通常状態とは異なる何か」がおこった場合に検知・通知し、根本となる原因を探ってくれるツール
インシデント管理ツールが必要な理由
一言でお伝えすると、「様々な監視ツールのアラートを集約する必要がある」ため。
ひとつのサービスないしシステムの中で、様々な監視ツールや障害検知ツールが含まれていると、そのツールに依存した条件やタイミング、異なる通知方法でエンジニアにバラバラに連絡がいってしまう。また、大きな組織になればなるほど関わるエンジニアは増えるため、そのアラートに対して誰がどのタイミングで対応するのか、そもそも対応済みなのかといった管理が難しくなり、現場が混乱してしまう可能性がある。
そのため、アラートを一元管理して通知してくれるインシデント管理ツールが必要となり、複数の監視ツールの中から必要なアラートだけを担当者へ確実に通知するシステムは、サービス運用におけるインシデント管理において欠かせないツール。
PagerDutyの特徴
特徴としては、以下4点
アプリケーションのアラートを確実に通報
・連携アプリは300以上。重要度の重み付けや対応マニュアルの添付により、シームレスな対応が可能。
・また、インシデントの重要度な重みづけにより「今すぐに対応すべき業務」が明確化されるため、エンジニアにかかる無駄な負担を削減される。
規範的なダッシュボードとセルフサービス分析
・運用指標とKPIを視覚化、組織間での調整を行い、より良いビジネス成果を実現可能。
運用状況をレポート機能で可視化
・インシデント対応ワークフローをすべて1か所で管理しながら、アプリケーション、サービス、インフラストラクチャの状態を視覚化可能。
オンコールエンジニアのスケジューリングが可能
・チームやスタッフの負荷などを把握することが可能。
PagerDutyのメリットデメリット
メリット
障害を未然に防ぐ
・障害の発生後には高度な分析と詳細レポートにより、インシデントの根本原因を追求し、将来のインシデントに備えることが可能。
オペレーション効率の向上
・インシデントが発生した際に対応すべきフローを事前に登録しておくことが可能。
事前にフローを組んでおくことで、属人化を排除し適切かつ迅速な障害対応を可能にします。エンジニアの負荷状況もダッシュボードで管理することができ、状況にあわせた柔軟な割り振りを行い、オペレーションの効率化を図る。
コスト削減
・インシデント発生から解決までの調査・改善工数を減らし、再発を防ぎます。結果としてオンコール要因の削減、属人化の削減を行うことで運用コストを削減することが可能。
顧客満足度の向上
・インシデント対応によるサービスのダウンタイムを減らすことで、顧客満足度のアップに貢献する。
また安定性・信頼性を担保することで、結果としてサービスのスケーラビリティにも大きく貢献。
デメリット
学習曲線
・PagerDutyは強力なツールですが、適切に設定するには一定の学習曲線がある。
新しいユーザーがシステムを理解し、最適な設定を行うまでに時間がかかる場合あり。
過剰な通知
・設定が不十分な場合、PagerDutyは過剰な通知を送る可能性あり。
これにより、チームの負担が増加し、通知の重要性が低下する場合あり。
依存度の増加
・PagerDutyを使用することで、組織はシステムの障害対応に強く依存する可能性あり。
このため、PagerDuty自体の可用性や信頼性が重要になる。
まとめ
PagerDuty=インシデント管理ツールの1つで非常に機能が豊富で利便性の高いツール