背景
初めて障害を起こしたので、今後のためにメモする。
前提
- 障害対応は関わっている人で自分のタスクの手を止め協力する
- 誰が悪いとか責任追求ではなく、再発防止策を考える
- 障害対応時、これが足りないなどで追加でリリースは絶対NG
- 焦っているときの追加オペレーションは、追加事故を起こす可能性が高い
- エラーが出ていなかった状態に、最速で切り戻す
- カスタマーに不便をかけている事象の解消を最優先する
障害対応の流れ
- 障害を検知
- 関係者に周知
- エラーが出ていなかった状態に切り戻す
- 障害報告書を作成・周知
- SRE チームと情報齟齬解消
- 解消できない場合、週次で議題に挙げ、問題解決を図る
障害発生時の対応
- 障害は、主に2つの役割で複数人でやる
- 障害記録や報告をまとめる人
- 復旧オペレーションをやる人
- コード書いた当事者
- 復旧オペレーションには、できるだけ関わらない
- 焦って追加でリリースして、2次災害出る可能性ある
- 第3者目線で、上長が復旧オペレーションする方がいい
- 発生時刻、規模、復旧方法など経緯をまとめる
- 状況まとめてくれた方が、助ける時に助けやすい
- 復旧オペレーションには、できるだけ関わらない