このへんの運用設計と実装、他ではどうしているんでしょうね? 真面目に議論したことがないので興味があります。
どのようにすれば生き血をすすらせないようにするか。
用語整理
以下と定義する。
- ON: 危険域
- OFF: 安全域
1. chatteringとしての対応
ON,OFFの切替えが一定期間に頻発する場合、chatteringとしての対策は有効かもしれない。
chatteringというのは電子回路のスイッチなどでON, OFF切替えが頻発する症状のことで、その対策は色々考えられている。
「どのくらいの期間」に対して対策するかは要検討だろう。
2. 不感帯時間の設定 (思いつき)
1つ目の警告が出た(OFF->ON)後で、不感帯時間の間は次の警告は送信しない、というような機能をつける。
不感帯時間の設定値は実際の運用をしながら決めていく。
設定を誤ると大切な警告が届かなくなる点には注意が必要だろう。
3. 警告をまとめる
イベント発生のたびに警告を発信すると、警告数が多いときに運用者に大きな負担となる。
適当な長さ(N分間 or N時間)ごとにレポートとして警告をまとめると、警告受信者の負担は減るかもしれない。
緊急を要するイベントはすぐに警告を発してほしいという要望があるかもしれず、その場合はこの案は不適である。
1つのレポート内のイベント数が多い点は変わらず、その点の負担は変わらない。
複合対策
1-3の機能を複合利用してもよいかもしれない。
1つの機能の不具合を別の機能がカバーしてくれる。
システムでやけどしそうなものは複数のものでカバーするというのが下記の動画でも紹介されている。
注意:会社で見ない方がいいかもしれない動画
''ÇEKME HELVA'' TRABZON