自分の理解を深めるためにまとめてみました。14章の続きです。
15章 ポストモーテムの文化:失敗からの学び
Googleにおけるポストモーテムの哲学
主な目的は、インシデントがドキュメント化されること、影響を及ぼした全ての根本原因が十分に理解されること、再発の可能性や影響を削減するための効果的な予防策が確実に導入されるようにすることである。ポストモーテムを書くことは処罰ではなく、会社全体としての学びの機会である。100%全ての事象に対して書くのは労力がかかるので、以下のような場合に書くようにしている。
- ダウンタイムが一定の閾値を超えた
- データの損失が生じた
- オンコールエンジニアの介入が必要だった
- 解決までに一定以上の時間を要した
- モニタリング自身の障害
ポストモーテムでは絶対に批判を行ってはならない。少しでも批判的になってしまうと、ポストモーテムを書きたくないという文化になってしまい、負のスパイラルに陥ってしまうから。(個人的な見解として)そのためには、各人がプロとして行動しており、お互いがプロとして相手を尊重するような文化が必要。プロとしてやれるだけのことをやって、それでもインシデントが発生してしまったのであれば仕方がないと思えるかどうかかと。ポストモーテムを書くにあたっては、正式なレビューと公表もセットである。以下のような観点でレビューするとよい。
- 後学のためのデータは収集されたか?
- インパクトの分析は完全か?
- 根本原因の分析は十分か?
- アクションプランは適切で、バグ対応の優先順位はつけたか?
- 結果はステークホルダーに共有済みか?
ポストモーテムの文化を根付かせるのは難しく、継続的な育成と強化が必要になる。そのために以下のような活動を行っている。
- 今月のポストモーテム
- Google+ポストモーテムグループ
- ポストモーテム読書会
- 不運の輪(トレーニングのようなもの)
- ポストモーテムをワークフローに組み込む
- ポストモーテムの質を適切に評価する文化
- 上位のリーダーたちの承認と参加を奨励
ポストモーテムを集約し解析することで、改善すべき共通のテーマや領域を見出すことができる。将来的な取り組みとしては、機械学習による弱点の予測、リアルタイムのインシデント調査の促進、インシデント再発の削減がある。
(16章に続く)