運用保守業務をしていると、テスト機のつもりが本番機で、そこでデータを消しちゃいましたとか、アプリの修正したけれど丸め計算し忘れて誤請求になったとか、そんな話はまぁまぁ出くわします。
で、再発防止に向けて障害事象を整理、分析していくのですが、ここで、俺流の障害分析フレームを紹介します。
障害事象整理表の初回作成
障害を状態遷移表で整理していると考えて下さい。
まだこの段階では分析しないです。「時系列」で「事象」を言葉にし、関係者が「行動したこと」を言葉にします。書いている最中に分析脳が働いて、「行動しなかったこと」に気づくことがあるので、それも書き込みます。
障害分類ラベル付与
関係者の行動を記載したセルに着目し、下記の障害分類ラベル付与の観点で、そのセルにラベルをつけます。
状態遷移表を整理していくのと同じように、実行すべきアクションの抜け漏れがあったら、本来実行すべきだったアクションをセルに追記します。そのセルには「ラプス」のラベルが付与される、みたいな感じです。
障害原因探索
障害分類ラベルを手掛かりに原因を深堀します。
深堀するときに次のような観点で深堀します。ざっくりした観点ですが、議論のとっかかりとしてこのような観点の発言をして考えていきます。