焦らない
焦ってもいらないミスをするだけです。一度コーヒーでも淹れて落ち着きます。10分程度遅れても誰も文句はいいません。
現象を正確に把握する
発生している現象を可能な限り正確に把握しましょう。
この把握している内容が間違っていると余計に時間がかかります。
A4用紙に簡易な図を書いて大枠を把握します。
資料を用意する
問題が発生しているシステムのネットワーク構成図や、システムの仕様書など、あらゆる資料を用意します。
障害原因の仮説を立てる
なぜその障害が発生しているのか、書き出します。
一番可能性が高いと考えられる仮説から順に番号を振ります。
闇雲に多く書き出せばよいというわけではないので、3つ程度にします。
仮説にもとづいて現象を確認する
仮説にもとづき障害原因を特定します。
障害原因が特定したら、要因を書き出します。
対応計画を立てる
要因を取り除くために何をすべきかを書き出します。
対応計画にを全て書き出したら、それを上から実施します。
全て実施しても、障害が回復しない場合は、次の仮説に移り同じ事を繰り返します。
全ての仮説が間違っていた場合は、別の視点から考え仮説を考え直します。
時系列で記録する
障害が発生した日時、確認者など、あらゆる情報を時系列で記録します。用意しているA4の紙に書き出します。
振り返る
障害対応が終わっても、一息ついたら発生した現象を振り返ります。
今後どのような対策をしたら、その原因が元になる障害が二度と発生しないための仕組みを考えます。
同様な問題もこの時に考えておきます。
情報を共有する
障害によって得られた情報を、関係者に情報共有して今後の運用に役立てます。
失敗知識データベースを構築して、検索できるようにしていればベストです。