障害対応はスピードが大事。非常に大事。
ここでは具体的にやる事ではなくて、大枠の考え方をまとめています。
原則
- 対応しているメンバーに迷惑がかからないようにする
- 自身がやらなければならない事をやる
- 自身ができることを考えてやる
考える事
自身がやらなければならない事がある場合
他の人と作業が被る可能性がある場合は宣言/表明してから、迅速且つ正確に、失敗した場合のリスクやその対応策があるかどうかなどを天秤にかけながら行う。
対応に必要なメンバーが障害に気づいていない可能性がある場合
該当するメンバーに連絡する。
自身にできるかもしれない事を考える
- 悪影響を与える可能性を考慮し、慎重に行動する。
- 他の人と被る事が予想される場合は宣言/表明する。
- やってはいけない可能性が想定される場合はわかる人に必ず確認をしてから行う。
- 対応しているメンバーに質問する事はそれ自体が負担になり得るので、大した事でなければ聞かないようにする。
- 大した事でないならやらないようにする(確認がとれないので結果としてこの選択になる)。
- 特にやれる事がないように思える状況でも邪魔にならずにできる事を考える。
- パフォーマンス監視ツールをみる (状況把握の一環)
- 本番の挙動を確認する (状況把握の一環だが、「今はアクセスしないで!」という状況も発生し得るので自身の頭で随時判断する。)
- 対応メンバーの状況を追って把握する (自身の次の一手を考えるのに必要)
本当に自身に何もできる事がないと判断した場合
ここは上記の "特にやれる事がないように思える状況でも邪魔にならずにできる事" まで読んでも、それでもまだ他に優先度が高い通常業務があると思える場合に考える事。
- 通常業務を遂行しながら、障害対応に関する依頼を待機する。
- 通常業務を遂行する場合でも障害対応に悪影響にならないかを考慮し、悪影響になりそうな事は避ける
- チャット一つにしても、無駄な情報が流れる事で対応を行うメンバーが情報を把握しづらくなる可能性を考慮する。
- 対応しているメンバーに対して依頼したい事がある場合は、後回しにできないのか考える。