ご覧いただきありがとうございます。7年間、1000件以上システム障害の分析をした私がポイントをぎゅっと3点にまとめてお伝えします!
システム障害対応で重要なのは 「協同」 です!
この協同の説明とこれを実現するためのポイント3点をご説明いたします!
※出版した書籍「3カ月で改善!システム障害対応 実践ガイド」のポイントとなります。
2023年9月29日のBPStudy#193〜システム障害は突然に内容に類似します、ご了承ください。
どんな人にお勧め?
SIer所属でシステム障害対応を普段行っている方
例えば、
- 全体の統括・管理を行う方
- 原因調査・暫定復旧を行う方
- 影響調査・顧客連絡を行う方
SIerに発注し、システム障害対応の委託している方
- 連絡を受けエンドユーザーへ連絡をする方
- 暫定復旧に関する判断をする方
運用設計やシステム設計や改修でシステム障害が発生しないようにできるのが一番ですが、特に金融、通信、官公庁などは設計の変更・改修は難しく、発生後のプロセスをよりよくすることで、決済やネット利用などITサービス利用者への影響を極小化したい方。
システム障害対応を変える「協同」とは?
開発チーム と ユーザー企業 が助け合いながらシステム障害対応にあたること。 です
そうは言っても、社内が縦割りで難しい、、、とか、お客様がそんな風に接してくれない、、、など、様々な事情がおありだと思います。それでも、協同、助け合いを、システム障害対応のスタンダードにしていきたいです。
なぜなら、ITサービスを作るときは、会社の内外問わず、多くの関係者で開発されます。そうやって出来たITサービスでの障害は、多くの関係者で協力し合いながら対応したほうが、エンドユーザーへのサービス影響を最小化できると考えているからです。
協同を実現するためのポイントは!?
ポイント①:システム視点ではなくサービス視点
私は金融システムを10年以上保守運用をしていて、10年前からなかなか改善できないなーと思うことがありました。
それは、どれだけ改善を重ねてもお客様より「情報足りない、情報発信が遅い」 と言われてしまうことです。7年1000事例からわかったことは、「サービス視点ではなくシステム視点となっているからだ」ということです。
私たちはやはり “システムが復旧したか、システムで何が起きたか” という視点で動いてしまい、
お客様は“サービスが復旧したか、サービスで何が起きたか”という視点で話している。この視点のずれによってお客様からは
「(サービスを復旧するための)情報が足りない、(サービスを良い状態に保つには)情報発信が遅い」 ということが理解できておらずずれ続けている、、、ということです。
ポイント②:事象ではなくアクション起点
・2つ目:事象ではなくアクション:
私はシステム障害対応の改善をしていたので、過去のシステム障害の事象を整理して、対策を考えて・・・とずっとずっとやっていました。
ただ結局 「事象って様々だし、対処も変わるからやってもイタチごっこ」 という感じになっていました。ここで私が見つけたポイントは「事象」ではなく「アクション」に注目する事です。
ここでいう「アクション」は「暫定復旧」「顧客連絡」などで、サーバの再起動や、Webページに掲載するなどと思ってください。
分析を進めていると、 システム障害対応ときに実施している「アクション」はだいたい似通ってきてこれを整理すると収束に向かっていくこと がわかりました。
また、システム障害対応ができる人と、できない人の差は 「アクション候補が頭に浮かんで、そのどれを選ぶかの判断情報がどこにあって、判断基準をもっているか」 ということがわかりました。
これを補うためびに都度都度、管理者・マネージャーやベテランが頭にあるアクション候補をもとに、メンバー宛に「この再起動の準備しといて」と指示をしたり、「この情報集めて」という判断情報を集めるように指示をして、その結果を受けて、再起動の指示をする、などしているのではないでしょうか。
ポイント③:情報の量ではなく情報の質
最後に システム障害時には「不必要な情報を集めすぎる傾向にある」 とわかりました。
誰かに「なんでもいいから情報頂戴」と言われたことはあるのではないでしょうか?もしくは皆様も「なんでもいいから情報頂戴」といったことあるのではないでしょうか?
・・・ちなみに私はめちゃめちゃあります。
このように情報を要求するのは「何等か糸口をつかもう」とする行動なのはわかるのですが、情報を提供する方は負担が多くなりますし、受け取るほうも多くの情報を受け取ると混乱を方がいます。
できれば事前に 「どんな情報がほしいか」を決めておいて、その取得方法・基準などを決めておくともう少し落ち着いて皆さん行動できます。
是非、アクションの候補をもとに、どんな情報がどのような基準で見ればよいか、をもとに情報を集めるようにしていきましょう!
以上、「協同」で変えるシステム障害対応のポイント3点!説明しました!少しでもご興味持って頂けたら幸いです!
他にも 情報発信ブログやコミュニティ などやってます!ご興味持って頂けたらご覧ください~