システム障害対応実践ガイドを読んで備えておく

Last updated at 2023-12-02Posted at 2023-12-02

この記事は、株式会社カオナビ　Advent　Calendar　2023　シリーズ2の２日目です。

株式会社カオナビでプロダクトディベロップメント本部技術基盤部サービスオペレーションGでマネージャーやってます。

前職のSIerでも最初から保守運用要員でエンジニア人生をスタートしているせいか、気がついたら障害対応やインシデントの中に身を置くことに何も抵抗がない体になってしまいました。

2023年9月19日に刊行されました『3カ月で改善！システム障害対応実践ガイドインシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える』が、とても良かったので紹介しておきます。

この本に興味を持って手を取る人には、なんだか歩んできた道のりに近しい属性を感じます。

珍しい障害対応ガイド本

細かい目次は読んでいただくとして大きく３つのパートに分かれています。

さらに各パートで分かれているので、自分達に今必要なものはなにかというの考えた上でポイントで読んでいくことも可能です。
個人的には２つ目の「障害対応の成否を分けるものを知る」は、どんな人でも読んでおいた方が良いのではないかなと思います。

個人的にはCHAPTER8第5週の「システム障害発生時のアクション定義」です。例として

が挙げられています。　特にシステム障害対応をしていると1と2がおざなりになってしまうケースがあるので、忘れずにプロセスに組み込むなりワークフローに組み込むなりをした方が良いかなと思ってます。

カオナビでもインシデントが発生したときのワークフローは整備されていて、一報をどこに出すとかSlackのどこのチャンネルで関係者に周知するのか、といったものがSlackのワークフロー上で実装されています。

もう１つ忘れがちなのが定期報告及び一報の内容の更新です。ワークフロー上で書道の報告のタイミングはあれど、その後定期的に報告をするというのは忘れがちなので、30分毎や1時間毎に状況の確認と報告内容のアップデートはかかさないように仕組みを作っておくことが重要だと思います。

第7週「「アクション実行の役割と権限の定義」もとても参考になると思います。インシデント自体はいつ起こるかわからないもので、いざ起きたときが最初に体験する実践体験ということも少なくないと思います。

その時に何をすれば良いのかわかっていないと状況だけが進んでいってしまうため、整理できていることがとても重要です。

特に判断する人、実行する人を決定するポイントもまとまっています

自分も一応役職者なので、特に3番目はめちゃくちゃ欲しい情報で頷けます。
個人的には判断者も待っているだけではなくて積極的に動いて情報収集するべきかなと思います。

他にも『システム障害対応の教科書』もとても参考になります。

事前にこういった書籍で情報を知ることができるのは大変ありがたいので、いざ本番で起きたときに困らないように、事前に『システム障害対応実践ガイド』を読んで備えておきましょう。