Help us understand the problem. What is going on with this article?

Zabbix trigger severities の運用設計事例(個人的ベストプラクティス)

More than 3 years have passed since last update.

はじめに

Zabbix Advent Calendar 2015 の 7日目 です。

ike_daiさんの誘いに乗ってエントリーさせていただきました。
今回は機能紹介や検証レポではなく、運用設計についてです。

トリガーの深刻度の扱いに関する考え方で、シンプルながらも使いやすいと思っている使い方をご紹介したいと思います。

使えそうならば、ストック, いいね!, Tweet, はてぶ などなどしてもらえると嬉しく思います。アドバイス、他のご意見ありましたら是非ください。大歓迎です。

トリガーの深刻度について

Zabbixでは以下の6種(5段階+未分類)のトリガーが用意されており、それと対になる復旧トリガーがサポートされます。
英語表記の場合、最高レベルの障害では突然の大惨事な感じで用意されておりますが、日本語ではそれとなく段階的な感じでレベルアップしているように翻訳されています。

ちなみに HP Software系では、normal,warning,minor,major,critical といったような分類が採用されており、ひょっとしたらこちらの表現のほうが馴染みが深い方もいるかもしれません。
そういった方は深刻度のカスタマイズをしてみてください。

SEVERITY 深刻度 COLOUR DEFINITION
Disaster 致命的な障害 Bright red Disaster. Financial losses, etc.
High 重度の障害 Red Something important has happened.
Average 軽度の障害 Orange Average problem.
Warning 警告 Yellow Be warned.
Information 情報 Light green For information purposes.
Not classified 未分類 Grey Unknown severity.

テンプレートを作成する際に、トリガーの深刻度は、自由に指定することができますし、Zabbixの標準テンプレートにもそれっぽい感じで用意されています。
それでいいかと自由に任せておくと、システム管理者によってバランスもまちまちになってしまいます。

システムが増えるたび微妙なバリエーションが増え、結果的に深刻度は『なんとなくヤバい』とか『まだセーフ』といった雰囲気を伝える指標になってしまうことがあります。これをどう防ぐかというお話です。

トリガーの深刻度は先に決めておく

先ほどの課題の答えは簡単で、『あらかじめ』トリガーの深刻度を決めておきましょうということにつきます。
なんとなくでトリガーの深刻度を決めて使い始めてしまったのであれば、カオスになる前に基準を設けましょう。
運用している監視定義について深刻度の基準を再定義し、アジャストしていくのは相当しんどいです。

トリガーの深刻度を何で決めるか

ここで、どうやってZabbixのトリガーの基準を決めたらいいのだという悩みにぶつかります。
ITSMSやらITILやらに沿って所属する組織のサービスにおけるインシデントの深刻度について基準をお持ちの方も多いかもしれませんが、その指標と監視項目のアラートの基準がぴったり一致することはないと思います。

善良なシステム管理者であれば異常はより早期の段階から検知して、大事になる前に済ませておきたいと思う方も多いことでしょう。

トリガーとアクションの組み合わせの例

そこでご提案したいのが、『関係者への共有範囲をベースに深刻度の基準を設ける』アプローチになります。

Average までは技術担当者の都合で使う、High, Disaster は関係者への情報提供を迅速に行うために使う

トリガーの深刻度を3段階に分け、以下のように深刻度別に宛先を増やすだけです。これだけで重度障害は関係部署や上長にアラートが同時に通知されるレベルであるという一つの基準ができます。

  • Warning以上のアラートはすべて自分のPCメールアドレスにメールする
  • High以上のアラートについて、関係部署や上長にもアラートを共有する。
  • 通知条件からInformationを外す。

通知条件からInformationを外しているのは意図的なものです。評価中の監視定義であったり、予兆だけ記録しておきたい監視項目においては、自分が技術担当者であっても、メール通知がほしくないケースもあるためです。

SEVERITY 担当者E-Mail 共有E-mail
Disaster x x
High x x
Average x -
Warning x -
Information - -
Not classified - -

自組織の共通テンプレートでの深刻度について

所属する組織で共通のテンプレートを用意している場合もあると思います。細かいところのこだわりは技術担当が調整する事でよいと思いますが、共通テンプレートでは、深刻度を使い過ぎない事も重要になります。
共通テンプレートとしてはHighで関係者共有されるインシデント、Warningで技術担当者にしか通知されないインシデントとして作っておくと、テンプレートのカスタマイズ性は残しつつ、一定の基準を示すことになるのではないでしょうか。

SEVERITY 共通テンプレ 担当者E-Mail 共有E-mail
Disaster - x x
High x x x
Average - x -
Warning x x -
Information - - -
Not classified - - -

ワークアラウンド担当部署がまた異なる場合について

手順が定まっており、別部署やMSPに対応依頼を自動的にメールしたい場合もあると思います。
第3の通知先が追加されることになるので、何らかの条件とスクリプトを通して、そういったイベントだけ限定して通知するべきかと思いますが、今回は触れません。

SEVERITY 担当者E-Mail 共有E-mail 協力先への依頼
Disaster x x -
High x x
Average x - -
Warning x -
Information - - -
Not classified - - -

以上です。シンプルな考えですが、運用設計を固める際の参考になればうれしく思います。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした