【事象】
Zabbix のアラートトリガー設定で、障害発生時にメールが送信されるように設定していた。しかし、障害発生時刻とメール受信時刻に5~10分程度の遅れが生じることがあり、さらに一部の障害メールが未受信となるケースも確認された。
【調査】
以下の確認およびパラメータ調整を行ったが、問題は改善されず。
・SMTPサーバのログ確認
→ 特にエラーは記録されていない。
・"Template App Zabbix Server" を使用した確認
→ Zabbixプロセスおよびキュー状態を確認したところ、一部でリソース不足が発生して
いた。そのためパラメータを調整し、リソース不足を解消したが問題は解決せず。
・障害検知時のイベント詳細確認(検知後の動作)
→ 障害検知後のメール送信およびパトランプ点灯処理の発動が明らかに遅れていた。
※ 当時 Zabbix をデバッグモードに設定してログを確認する対応は実施できておらず。
やり方が分からなかった。(誰か教えてください・・。)
【原因・結果】
Zabbix のアラートトリガー設定で、障害時に「メール送信」と「パトランプ点灯」が実行されるように設定していた。しかし、パトランプ(例: 警子ちゃん)が未設置の状態だったため、毎回エラーが発生し、「パトランプ点灯」処理が失敗していた。そこで試しにアラートトリガー設定で「パトランプ点灯」を無効化したところ、メール遅延が解消された。どうやら原因は、「パトランプ点灯」処理の失敗によりイベント処理が滞留していたことのようです。パトランプを設置後、アラートトリガー設定で「メール送信」と「パトランプ点灯」の両方を有効にしても、メール遅延は発生しなかった。
備考
・【ZABBIX 7.2 Documentation】1. Problems
・zabbix のアラートが飛ばない時のチェックリスト
・Zabbixトラブルシューティング -Zabbix Serverログの見方
・Zabbix Enterprise カスタマーポータル
・Zabbixのパフォーマンス&トラブルシューティングTips