この記事は、株式会社カオナビ Advent Calendar 2023 シリーズ2の2日目です。
株式会社カオナビでプロダクトディベロップメント本部技術基盤部サービスオペレーションGでマネージャーやってます。
前職のSIerでも最初から保守運用要員でエンジニア人生をスタートしているせいか、気がついたら障害対応やインシデントの中に身を置くことに何も抵抗がない体になってしまいました。
2023年9月19日に刊行されました『3カ月で改善!システム障害対応 実践ガイド インシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える』が、とても良かったので紹介しておきます。
この本に興味を持って手を取る人には、なんだか歩んできた道のりに近しい属性を感じます。
珍しい障害対応ガイド本
細かい目次は読んでいただくとして大きく3つのパートに分かれています。
- 障害対応とその改善を見つめ直す
- 障害対応の成否を分けるものを知る
- 障害対応の改善を実践する
さらに各パートで分かれているので、自分達に今必要なものはなにかというの考えた上でポイントで読んでいくことも可能です。
個人的には2つ目の「障害対応の成否を分けるものを知る」は、どんな人でも読んでおいた方が良いのではないかなと思います。
ここが参考になると感じたところ
個人的にはCHAPTER8第5週の「システム障害発生時のアクション定義」です。例として
- ユーザーへの初訪連絡
- 関係者へのエスカレーション
- サーバー・プロセスの再起動
- モジュールの切り戻し
- 技術チームへの支援要請
が挙げられています。 特にシステム障害対応をしていると1と2がおざなりになってしまうケースがあるので、忘れずにプロセスに組み込むなりワークフローに組み込むなりをした方が良いかなと思ってます。
カオナビでもインシデントが発生したときのワークフローは整備されていて、一報をどこに出すとかSlackのどこのチャンネルで関係者に周知するのか、といったものがSlackのワークフロー上で実装されています。
定期報告は大事
もう1つ忘れがちなのが定期報告及び一報の内容の更新です。ワークフロー上で書道の報告のタイミングはあれど、その後定期的に報告をするというのは忘れがちなので、30分毎や1時間毎に状況の確認と報告内容のアップデートはかかさないように仕組みを作っておくことが重要だと思います。
アクションを整理するだけでも良し
第7週「「アクション実行の役割と権限の定義」もとても参考になると思います。インシデント自体はいつ起こるかわからないもので、いざ起きたときが最初に体験する実践体験ということも少なくないと思います。
その時に何をすれば良いのかわかっていないと状況だけが進んでいってしまうため、整理できていることがとても重要です。
特に判断する人、実行する人を決定するポイントもまとまっています
- できる人ではなく、やるべき人を選択する
- 急を要する事態の場合は、判断する人と実行する人を同じにする
- 役職者が判断者となる場合は、アクション内容・判断情報・判断基準を意識してもらう
自分も一応役職者なので、特に3番目はめちゃくちゃ欲しい情報で頷けます。
個人的には判断者も待っているだけではなくて積極的に動いて情報収集するべきかなと思います。
いざという時に困らないために
他にも『システム障害対応の教科書』もとても参考になります。
事前にこういった書籍で情報を知ることができるのは大変ありがたいので、いざ本番で起きたときに困らないように、事前に『システム障害対応 実践ガイド』を読んで備えておきましょう。