自分の理解を深めるためにまとめてみました。12章の続きです。
13章 緊急対応
テストによって引き起こされた緊急事態
Googleは、ひどい障害や緊急事態のテストについて、予防的なアプローチを採用している。SREはシステムに障害を起こさせ、その障害の様子を観察し、そして信頼性を向上し障害が再発しないようにするための改善を行う。しかし想定と実際の結果が大きく異なることもあり、不測の事態を起こすこともある。
変更が引き起こした緊急事態
Googleには数多くの複雑な設定があり、それらの設定には常に変更が加えられている。不測の事態が起きないようにしているが、Googleのインフラストラクチャの規模と複雑さゆえに、全ての依存関係や関連性を予測することは不可能であり、設定変更が完全に計画通りには進まないこともある。
プロセスが引き起こした緊急事態
大量のマシンを管理するための自動化に相当の時間とエネルギーをつぎ込んでいる。きわめてわずかな労力だけで大量のマシン上で多数のジョブを起動し、停止し、再構成できるのは驚くべきこと。自動化の効率性は、物事が完全に計画通りにいかなかった場合には少々恐ろしいものがある。
解決できない問題は存在しない
Googleが学んだ中で最も大きなことは、必ず解決策は存在するものである。最も優先すべきなのは、目の前の問題を素早く解決することであるため、そのためにはできることは何でもすべき。
過去から学び、繰り返さない
障害から学びを得るための最も良い方法は、過去に何が壊れたのかを書き記しておくこと。徹底的に、誠実に、そして何より厳しい問いを投げかけること。大局的な見地から考えること。現実以上に大きなテストは無い。より規模の大きい問いかけを自身に投げかけ、不測の事態を想定してみる。障害に関しては理論と現実は大きく異なる。というのも、実際に障害を起こすまではシステムがどのように振る舞うのかはわからない。
(14章に続く)