概要
OpsRampではアラートを自動で集約して、アラート一覧では一行で表示してくれたり、suppress状態にすることでアラートを抑制することができます。しかし、suppress状態にしてみたものの、同一アラートが新たなアラートとして検知されることがありましたので、その条件を探ってみたいと思います。
Windowsイベントログアラートの抑制
Windowsサーバを監視していると、同じIDのアラートが定期的に発生することがあります。そこで、Windowsイベントログを定期的に検知した場合の挙動を確認してみました。
Select状態での複数検知
アラートを検知して何も対応していない状態(select)で、定期的に連続して同一アラート(イベントID:999と777)を検知した場合の結果は下記の通りです。
- 同一アラートを自動で集約(件数が3件となっていて一行に集約されていることが分かります)
- アラートエスカレーション通知は最初の1回のみ
Suppress状態での複数検知
アラートを検知してSuppress(抑制)にした状態で、定期的に連続して同一アラートを検知した場合の結果は下記の通りです。
- 同一アラートを集約できず、新規アラートとして検知
- アラートエスカレーション通知も新規アラートとして通知される
イベントID:999のアラートを発生させると、新規アラートとして検知されてしまいました。WindowsイベントログについてはSuppressが有効ではないようです。
Windowsイベントログを抑制したい場合は、監視設定で除外設定することをおススメします。
select状態にしたままでも良いと思いますが、アラートエスカレーションで一定期間経つとインシデント化する設定にしているので、その都度新しいアラートとして検知されてしまい面倒な思いをしたことがあります。
CPU使用率アラートの抑制
WindowsサーバでCPU Stressツールを使って負荷をかけ続けた状態で、アラート抑制できるか確認してみました。
Select状態
アラートを検知して何もしてない状態で、CPU使用率のアラートを検知した場合は下記の通りアラート・通知を集約できました。
- 同一アラートを自動で集約(件数が2件となっていて一行に集約されていることが分かります)
- アラートエスカレーション通知は最初の1回のみ
Suppress状態
- 同一アラートを自動で集約(件数もカウントアップされません)
- アラートエスカレーション通知は最初の1回のみ
- 一度復旧すると、新しいアラートとして検知される
Suppressに設定すると、件数がカウントアップされずにアラートが抑制されています。
一旦CPU負荷を下げて復旧させてみます。この状態で再度CUP負荷を上げるとどうなるでしょうか。
作業でアラートが対象に発生する場合には、Suppressを利用するのではなくて、アラート静観時間を指定できるので、そちらを利用することをおススメします。
おわり。