まずはユーザーが使える状態に復旧しましょう
- 回避策があれば周知しましょう
- フィーチャーフラグを切り替える、バージョンを戻すなどで動いていた状況に戻しましょう
エラーの原因を探して恒久対応に取り組まないでください
すぐに復旧できない場合は次に進んでください
影響範囲と深刻度を確認しましょう
- 誰に影響がありましたか?
- 今後誰に影響が及ぶと考えられますか?
- ユーザーのどの操作が不可能になりましたか?
影響範囲全てに対して対策、現状を周知しましょう
エラーの原因を探して恒久対応に取り組まないでください
被害状況が深刻であった場合、次に進んでください
全力で対処してください
ここまで到達している時点で緊急事態です。関係するエンジニアを集め、現状の把握と現場の対応、及び暫定対応に全力を注いでください。
障害の暫定対応お疲れ様でした
まずは現状を整理して、障害報の作成に取り組んでください。確認事項は前述にもあるとおりですが、まずは被害の深刻度、影響範囲を明らかにしてください。そして現状を周知して、現場の混乱を防げているかを再度確認してください。
混乱が収まってから、ゆっくりと原因調査及び恒久対応に取り組みましょう。再発防止策も作成することをお忘れなく。