LoginSignup
2
2

More than 1 year has passed since last update.

障害対応について

Posted at

背景

初めて障害を起こしたので、今後のためにメモする。

前提

  • 障害対応は関わっている人で自分のタスクの手を止め協力する
  • 誰が悪いとか責任追求ではなく、再発防止策を考える
  • 障害対応時、これが足りないなどで追加でリリースは絶対NG
    • 焦っているときの追加オペレーションは、追加事故を起こす可能性が高い
    • エラーが出ていなかった状態に、最速で切り戻す
    • カスタマーに不便をかけている事象の解消を最優先する

障害対応の流れ

  • 障害を検知
  • 関係者に周知
  • エラーが出ていなかった状態に切り戻す
  • 障害報告書を作成・周知
  • SRE チームと情報齟齬解消
    • 解消できない場合、週次で議題に挙げ、問題解決を図る

障害発生時の対応

  • 障害は、主に2つの役割で複数人でやる
    • 障害記録や報告をまとめる人
    • 復旧オペレーションをやる人
  • コード書いた当事者
    • 復旧オペレーションには、できるだけ関わらない
      • 焦って追加でリリースして、2次災害出る可能性ある
      • 第3者目線で、上長が復旧オペレーションする方がいい
    • 発生時刻、規模、復旧方法など経緯をまとめる
      • 状況まとめてくれた方が、助ける時に助けやすい
2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2