More than 5 years have passed since last update.

「入門監視」を読んでの監視設計まとめ 3

Posted at 2019-04-18

アラート

監視の中でも特にうまくやる必要がある重要な部分。

誰かをたたき起こすためのアラート
- 緊急な対応が求められ、システムがダウンしているもしくはしているもの
- 電話、テキストメッセージ、アラームなど様々な方法がある
参考情報としてのアラート
すぐに対応する必要はないが来たことは確認すべきもの
ジョブの失敗など

後者が前者と関連している場合はある。

大事だと思ったところをピックアップします。

メールは誰かをたたき起こすものでもないし、そのために使おうと思うべきではない。
その代わりにそれぞれのアラートの使い道を考える。使い道は下記の3つ

手順書はアラートが来た時に素早く自分たちが対処できるようにするもの。
複雑になったシステムは誰しも知っているわけではなく、知識を広める良い方法になる

良い手順書は特定のサービスについて以下のような質問に答えるように書かれていること

書くアラートには対象サービスの手順書のリンクを入れる。

ただし、アラートに対応する手順がコピーアンドペーストできるくらいなら問題解決を自動化してアラートをなくす方向にするべきである。

アラートの見直しに関する項目です。
多すぎるアラートはストレスになり、だんだんと監視システムを信用しなくなっていき、最終的には無視されるようになってしまう。そうなってしまう前にアラートを減らすいくつかの方法は下記の3つ

初心に戻り、すべてのアラートは誰かがアクションする必要がある状態か
1か月間のアラート履歴を見て、どんなアラートがあり・どんなアクションをしたか・各アラートの影響はどうだったか・削除してしまえるアラートはないか・閾値を変更できるか・内容を正確にできないか
アラートを完全に削除するために、どんな自動化の仕組みを作れるか

少しの取り組みで、アラートのノイズを大きく減らせる

オンコールとは何か問題が起こったときに呼び出しに答えられるようにしている担当のこと。
この後の章にもでてくる設計をちゃんと行えば減りそうな事象なのでまずはそっちを詳しく書こうと思っているのと組織的に柔軟にできることが少ないので、詳しくは割愛します。

ITILから来た概念で定義としては
「予定していないITサービスの中断、または、ITサービス品質の低下 - ITIL 2011」

インシデント管理のプロセスとしては以下のようなものがある

ITILでは定義しているがこのプロセスを採用しつつもシンプルにすると…

シンプルにしたプロセスの「5. インシデント解決後、回復力を高めるために改善策を考える」で
インシデントに関する議論の場を常に設けるべきである。

利害関係のあるすべての組織から人を集め、何が問題で、なぜ発生して、再発防止にはチームでどう対応していくか議論する。
そこでよくない習慣・文化として「誰かを非難するという文化」
ミスした人が罰せられたり問題を隠さざるを得ないような状況では内部に潜む法等の問題を改善することはできない