自分の理解を深めるためにまとめてみました。13章の続きです。
14章 インシデント管理
インシデント管理がうまくいっていないと?
インシデントの管理がうまくいっていないと、技術的な問題への過剰な集中が発生してしまい、コミュニケーション不足によりステークホルダーからの信頼悪化、勝手で不適切なリカバリによる二次災害等が起きてしまう。
インシデント管理のプロセス
役割分担
自分の役割を知り、他の誰かの領域に踏み込んでしまわないことが重要。これにより各人が自律的に動けるようになるから。具体的な役割としては以下がある。
- インシデント指揮者:全体の統制を取る。
- 実行担当者:障害復旧する。
- コミュニケーション担当者:対外的なコミュニケーションを受け持つ。さらにインシデントに関するドキュメントをメンテナンスする場合もある。
- 計画:再発防止を行う。
明確な司令所
可能であれば一箇所に集まれるのがよいが、難しければチャットツールを有効活用するとよい。
ドキュメント
リアルタイムで更新が反映されていくようなドキュメントがあるとよい。GoogleのほとんどのチームはGoogle Docsを使っている。(ただし、Google DocsのSREチームはGoogle Sitesを使っている。)
引き継ぎ
曖昧な引き継ぎはNG。
インシデント管理のためのベストプラクティス
- 優先順位
- 準備
- 信頼
- 自己観察 <--- 意外とこれ大事!
- 代案の検討
- 訓練
- 持ち回り
(15章に続く)