こんにちは。
私はシステム保守運用については初心者です。
運用保守部門に配属され、知らないこと沢山あり毎日学習の日々です。
そんな中、上司から「インシデント管理がうまくできていない、アラートの取りこぼしが多い、不要なアラートが多いからサービスの導入検討してくれない?」というお達しがあり、今猛チャージで情報収集しているところです。
自分なりに情報収集していく中でインシデント管理やインシデント管理サービスの認識について気になる点がいくつか出てきたのでまとめようと思います。
確実に誤っている点あるかと思いますのでその点は若手故のご愛嬌ということで皆様お許しください。
インシデント管理の定義
こちらはZendesk様のブログで紹介されているのでそちらを引用いたします
インシデント管理:
何らかの理由でユーザーがシステムを正常に利用できなくなったときに、その原因を取り除き、再びシステムを正常に利用できるようにするためのサポート体制のことを指す。ITサービスや情報システムの運用管理で使われ、主にユーザーサポートが担当するのが一般的。
インシデント管理サービスとは?
インシデント管理サービスの定義はPagerduty様のブログで紹介されているのでそちらを引用いたします。
インシデント管理サービス:
「通常状態とは異なる何か」がおこった場合に検知・通知し、根本となる原因を探ってくれるサービスを指します。
そして、インシデント管理サービスと検索した際に挙げられるのは以下です。
・Servicenow
・Zabbix
・hinemos
・Redmine
・ServiceDesk Plus
・Pagerduty
・Jira Software
・konpira
・XonOps
上記サービスにはシステム障害の検知に特化したサービスや監視を目的としたサービスも含まれます。
もう少し言うと、インシデント管理サービスはインシデント管理とITSM・ServiceDesk・ヘルプデスクサービスの大きく2つに分かれると理解しています。
その理解に立った上で上記サービスをまとめると以下になります。
<障害の検知・監視サービス>
・Zabbix
・hinemos
<インシデント管理サービス>
・Servicenow
・Pagerduty
・Jira Software
・konpira
・XonOps
<ITSM、ServiceDesk、ヘルプデスクサービス>
・Servicenow
・ServiceDesk Plus
・Redmine
簡単な流れとしては、
①監視サービスで発報されたアラート(インシデント)をインシデント管理サービスで受ける。②インシデント管理サービスではアラートのフィルタリング設計、ナレッジの登録をしておいて対処不要なアラートを削減する③ITSM、ServiceDesk、ヘルプデスクサービスに連携され各担当者が案件の状態を確認し、必要に応じて対処 です。
サービスによっては、ServiceDeskとしての側面を有していたり、インシデント管理もオプションで用意している場合もございますので詳細は各サービスサイト等でご確認ください。
自部門で必要なサービスは?
私が所属する部門では月間のアラート件数が約500件発生していて、
その内対処不要なアラートが7~8割を占めます。
現状の運用は、監視サービスからServicenowにアラートが連携され、各担当者がServicenow上で案件の状態を確認し、必要に応じてコミュニケーションしていく運用です。
運用における課題は、
①対処不要なアラートが多い
②アラートの重要度の重みづけができていない
①はオペレーターの負荷が大きく、②は重要なアラートを取りこぼすリスクが存在します。
Servicenow上でフィルタリングの設定とアラートの重要度の重みづけができれば上記改善されるのですが、そこまで詳細にできる訳ではないようでした。(もし、できるようでしたら教えてください)
なので、自組織においてはアラートのフィルタリング設計が細かく設定できるインシデント管理サービスが必要と考えています。
まとめ
インシデント管理サービスといってもそれぞれ得意な領域はあって、特徴を踏まえておくことが大事だなと思いました。加えて自組織の運用の課題が何でそれに対して解決できるサービスは何なのかを明確にすることが重要です。