Help us understand the problem. What is going on with this article?

Zabbix監視テンプレート(Scality 6 Supervisor)

More than 1 year has passed since last update.

Zabbix監視テンプレート(Scality 6 Supervisor)を作成しました。
Zabbix 3.0、Scality RING 6.4.5.4(Mithrandir)で検証しています。

前提条件

  • /etc/logrotate.dの設定がrestartではなく、reloadを使用している事。
  • Zabbixエージェントの設定ファイルにパラメータ"Include=/etc/zabbix/zabbix_agentd.d/"を設定している事。
  • Zabbixエージェントの設定ファイルにパラメータ"ServerActive=Zabbix ServerのIPアドレス"を設定している事。

Scality 6 Supervisor

テンプレート

  • Template App Scality 6 Supervisor Service(テンプレートとのリンク: なし)

アプリケーション

  • Scality 6 Supervisor service

アイテム

# アイテム名 トリガー キー データ型 単位 乗数の使用 更新間隔(秒) ヒストリ トレンド タイプ アプリケーション 内容 備考
1 RING Administrator HTTP service is running 1 net.tcp.listen[3080] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP3080ポート(http)のステータス取得 TCPポート(http)を使用しない場合は不要
2 RING Administrator HTTPS service is running 1 net.tcp.listen[3443] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP3443ポート(https)のステータス取得 TCPポート(https)を使用しない場合は不要
3 Supervisor sagentd service is running 1 net.tcp.listen[7084] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP7084ポート(sagentd)のステータス取得 TCPポート(sagentd)を使用しない場合は不要
4 Supervisor supv2 service is running 1 net.tcp.listen[12345] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP12345ポート(supv2)のステータス取得 TCPポート(supv2)を使用しない場合は不要
5 Supervisor uwsgi service is running 1 net.tcp.listen[4443] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP4443ポート(uwsgi)のステータス取得 TCPポート(uwsgi)を使用しない場合は不要
6 Supervisor grafana-server service is running 1 net.tcp.listen[3000] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP3000ポート(grafana-server)のステータス取得 TCPポート(grafana-server)を使用しない場合は不要
7 Supervisor bizstoresup service is running 1 net.tcp.listen[2443] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP2443ポート(bizstoresup)のステータス取得 TCPポート(bizstoresup)を使用しない場合は不要
8 Supervisor bizstoresup service is running 1 net.tcp.listen[5580] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP5580ポート(bizstoresup)のステータス取得 TCPポート(bizstoresup)を使用しない場合は不要
9 Supervisor salt-master service is running 1 net.tcp.listen[4505] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP4505ポート(salt-master)のステータス取得 TCPポート(salt-master)を使用しない場合は不要
10 Supervisor salt-master service is running 1 net.tcp.listen[4506] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service TCP4506ポート(salt-master)のステータス取得 TCPポート(salt-master)を使用しない場合は不要
11 Number of SSD failures 1 custom.scality.supervisor.ringsh.ringstatus.meta.ssd.ng 数値 - - 60 7 365 Zabbixエージェント Scality 6 Supervisor service 認識しているエラー状態のSSDの個数取得
12 Number of HDD failures 1 custom.scality.supervisor.ringsh.ringstatus.data.disk.ng 数値 - - 60 7 365 Zabbixエージェント Scality 6 Supervisor service 認識しているエラー状態のHDDの個数取得
13 Number of running httpd processes 1 proc.num[httpd,root,,"-DFOREGROUND"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service httpdプロセスの個数取得
14 Number of running bizstoresup processes 1 proc.num[,root,,"/usr/bin/bizstoresup"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service bizstoresupプロセスの個数取得
15 Number of running sagentd processes 1 proc.num[,root,,"/usr/bin/sagentd"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentdプロセスの個数取得
16 Number of running sagentd/core processes 1 proc.num[,root,,"sagentd/core"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/coreプロセスの個数取得
17 Number of running sagentd/heartbeat processes 1 proc.num[,root,,"sagentd/heartbeat"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/heartbeatプロセスの個数取得
18 Number of running sagentd/poll processes 1 proc.num[,root,,"sagentd/poll"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/pollプロセスの個数取得
19 Number of running sagentd/scheduler processes 1 proc.num[,root,,"sagentd/scheduler"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/schedulerプロセスの個数取得
20 Number of running sagentd/webclient processes 1 proc.num[,root,,"sagentd/webclient"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/webclientプロセスの個数取得
21 Number of running sagentd/webserver processes 1 proc.num[,root,,"sagentd/webserver"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service sagentd/webserverプロセスの個数取得
22 Number of running supv2 processes 1 proc.num[,root,,"/usr/bin/supv2"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service supv2プロセスの個数取得
23 Number of running supv2/core processes 1 proc.num[,root,,"supv2/core"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service supv2/coreプロセスの個数取得
24 Number of running supv2/scheduler processes 1 proc.num[,root,,"supv2/scheduler"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service supv2/schedulerプロセスの個数取得
25 Number of running supv2/webclient processes 1 proc.num[,root,,"supv2/webclient"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service supv2/webclientプロセスの個数取得
26 Number of running supv2/webserver processes 1 proc.num[,root,,"supv2/webserver"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service supv2/webserverプロセスの個数取得
27 Number of running salt-master processes 1 proc.num[,root,,"salt-master"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service salt-masterプロセスの個数取得
28 Number of running salt-minion processes 1 proc.num[,root,,"salt-minion"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service salt-minionプロセスの個数取得
29 Number of running uwsgi processes 1 proc.num[,,,"/usr/sbin/uwsgi"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service uwsgiプロセスの個数取得
30 Number of running grafana-server processes 1 proc.num[,grafana,,"/usr/sbin/grafana-server"] 数値 - - 30 90 365 Zabbixエージェント Scality 6 Supervisor service grafana-serverプロセスの個数取得
31 Number of online Nodes 0 custom.scality.supervisor.ringsh.serverlist.online 数値 - - 60 7 365 Zabbixエージェント Scality 6 Supervisor service 認識しているオンライン状態のノードの個数取得
32 Number of offline Nodes 1 custom.scality.supervisor.ringsh.serverlist.offline 数値 - - 60 7 365 Zabbixエージェント Scality 6 Supervisor service 認識しているオフライン状態のノードの個数取得
33 Free disk space on DATA 0 custom.scality.supervisor.ringsh.ringstorage.data.disk.avail 数値 B 1099511627776 60 7 365 Zabbixエージェント Scality 6 Supervisor service ノード全体のDATAの合計空き容量
34 Used disk space on DATA 0 custom.scality.supervisor.ringsh.ringstorage.data.disk.used 数値 B 1099511627776 60 7 365 Zabbixエージェント Scality 6 Supervisor service ノード全体のDATAの合計使用容量
35 Supervisor detected error log in cluster.log 1 log[/var/log/scality-supervisor/cluster.log,,,,skip] ログ - - 30 7 365 Zabbixエージェント Scality 6 Supervisor service ログファイルの文字列取得
  • ヒストリとは各収集値の保持期間
  • トレンドとは数値データタイプの1時間あたりの最低値、最高値、平均値および合計値の保持期間
  • Zabbixにリトライ回数、リトライ間隔、タイムアウト時間は存在しない

トリガー

# 深刻度 トリガー 条件式 種別 内容 備考
1 軽度の障害 RING Administrator HTTP service is down on {HOST.NAME} net.tcp.listen[3080].max(#3)=0 ポート 直近3回のTCP3080ポート(RING Administrator HTTP)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP3080ポート(RING Administrator HTTP)を使用しない場合は不要
2 軽度の障害 RING Administrator HTTPS service is down on {HOST.NAME} net.tcp.listen[3443].max(#3)=0 ポート 直近3回のTCP3443ポート(RING Administrator HTTPS)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP3443ポート(RING Administrator HTTPS)を使用しない場合は不要
3 軽度の障害 Supervisor bizstoresup service is down on {HOST.NAME} net.tcp.listen[2443].max(#3)=0 ポート 直近3回のTCP2443ポート(bizstoresup)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP2443ポート(bizstoresup)を使用しない場合は不要
4 軽度の障害 Supervisor bizstoresup service is down on {HOST.NAME} net.tcp.listen[5580].max(#3)=0 ポート 直近3回のTCP5580ポート(bizstoresup)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP5580ポート(bizstoresup)を使用しない場合は不要
5 軽度の障害 Supervisor supv2 service is down on {HOST.NAME} net.tcp.listen[12345].max(#3)=0 ポート 直近3回のTCP12345ポート(supv2)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP12345ポート(supv2)を使用しない場合は不要
6 軽度の障害 Supervisor sagentd service is down on {HOST.NAME} net.tcp.listen[7084].max(#3)=0 ポート 直近3回のTCP7084ポート(sagentd)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP7084ポート(sagentd)を使用しない場合は不要
7 軽度の障害 Supervisor uwsgi service is down on {HOST.NAME} net.tcp.listen[4443].max(#3)=0 ポート 直近3回のTCP4443ポート(uwsgi)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP4443ポート(uwsgi)を使用しない場合は不要
8 軽度の障害 Supervisor grafana-server service is down on {HOST.NAME} net.tcp.listen[3000].max(#3)=0 ポート 直近3回のTCP3000ポート(grafana-server)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP3000ポート(grafana-server)を使用しない場合は不要
9 軽度の障害 Supervisor salt-master service is down on {HOST.NAME} net.tcp.listen[4505].max(#3)=0 ポート 直近3回のTCP4505ポート(salt-master)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP4505ポート(salt-master)を使用しない場合は不要
10 軽度の障害 Supervisor salt-master service is down on {HOST.NAME} net.tcp.listen[4506].max(#3)=0 ポート 直近3回のTCP4506ポート(salt-master)のステータス取得時の戻り値(最大値)が0(Close)だった場合 TCP4506ポート(salt-master)を使用しない場合は不要
11 重度の障害 Number of detected a SSD Failures custom.scality.supervisor.ringsh.ringstatus.meta.ssd.ng.max(#3)<>0 ディスク 直近3回の認識しているエラー状態のSSDの最大個数が0以外だった場合
12 重度の障害 Number of detected a HDD Failures custom.scality.supervisor.ringsh.ringstatus.data.disk.ng.max(#3)<>0 ディスク 直近3回の認識しているエラー状態のHDDの最大個数が0以外だった場合
13 重度の障害 httpd process is not running on {HOST.NAME} proc.num[httpd,root,,].last(0)<1 プロセス 稼働中のhttpdプロセスの最新個数が1未満だった場合
14 重度の障害 bizstoresup process is not running on {HOST.NAME} proc.num[,root,,"/usr/bin/bizstoresup"].last(0)<2 プロセス 稼働中のbizstoresupプロセスの最新個数が2未満だった場合
15 重度の障害 sagentd process is not running on {HOST.NAME} proc.num[,root,,"/usr/bin/sagentd"].last(0)<1 プロセス 稼働中のsagentdプロセスの最新個数が1未満だった場合
16 重度の障害 sagentd/core process is not running on {HOST.NAME} proc.num[,root,,"sagentd/core"].last(0)<1 プロセス 稼働中のsagentd/coreプロセスの最新個数が1未満だった場合
17 重度の障害 sagentd/heartbeat process is not running on {HOST.NAME} proc.num[,root,,"sagentd/heartbeat"].last(0)<1 プロセス 稼働中のsagentd/heartbeatプロセスの最新個数が1未満だった場合
18 重度の障害 sagentd/poll process is not running on {HOST.NAME} proc.num[,root,,"sagentd/poll"].last(0)}<1 プロセス 稼働中のsagentd/pollプロセスの最新個数が1未満だった場合
19 重度の障害 sagentd/scheduler process is not running on {HOST.NAME} proc.num[,root,,"sagentd/scheduler"].last(0)<1 プロセス 稼働中のsagentd/schedulerプロセスの最新個数が1未満だった場合
20 重度の障害 sagentd/webclient process is not running on {HOST.NAME} proc.num[,root,,"sagentd/webclient"].last(0)<1 プロセス 稼働中のsagentd/webclientプロセスの最新個数が1未満だった場合
21 重度の障害 sagentd/webserver process is not running on {HOST.NAME} proc.num[,root,,"sagentd/webserver"].last(0)<1 プロセス 稼働中のsagentd/webserverプロセスの最新個数が1未満だった場合
22 重度の障害 supv2 process is not running on {HOST.NAME} proc.num[,root,,"/usr/bin/supv2"].max(#10)<1 プロセス 直近10回の稼働中のsupv2プロセスの最大個数が1未満だった場合
23 重度の障害 supv2/core process is not running on {HOST.NAME} proc.num[,root,,"supv2/core"].last(0)}<5 プロセス 稼働中のsupv2/coreプロセスの最新個数が5未満だった場合
24 重度の障害 supv2/scheduler process is not running on {HOST.NAME} proc.num[,root,,"supv2/scheduler"].last(0)}<1 プロセス 稼働中のsupv2/schedulerプロセスの最新個数が1未満だった場合
25 重度の障害 supv2/webclient process is not running on {HOST.NAME} proc.num[,root,,"supv2/webclient"].last(0)}<1 プロセス 稼働中のsupv2/webclientプロセスの最新個数が1未満だった場合
26 重度の障害 supv2/webserver process is not running on {HOST.NAME} proc.num[,root,,"supv2/webserver"].last(0)}<5 プロセス 稼働中のsupv2/webserverプロセスの最新個数が5未満だった場合
27 重度の障害 salt-master process is not running on {HOST.NAME} proc.num[,root,,"salt-master"].last(0)<12 プロセス 稼働中のsalt-masterプロセスの最新個数が12未満だった場合
28 重度の障害 salt-minion process is not running on {HOST.NAME} proc.num[,root,,"salt-minion"].last(0)<3 プロセス 稼働中のsalt-minionプロセスの最新個数が3未満だった場合
29 重度の障害 uwsgi process is not running on {HOST.NAME} proc.num[,,,"/usr/sbin/uwsgi"].last(0)<12 プロセス 稼働中のuwsgiプロセスの最新個数が12未満だった場合
30 重度の障害 grafana-server process is not running on {HOST.NAME} proc.num[,grafana,,"/usr/sbin/grafana-server"].last(0)<1 プロセス 稼働中のgrafana-serverプロセスの最新個数が1未満だった場合
31 重度の障害 Number of detected a offline Nodes custom.scality.supervisor.ringsh.serverlist.offline.max(#3)<>0 通信 直近3回の認識しているオフライン状態のノードの最大数が0以外だった場合
32 重度の障害 Supervisor detected error log in cluster.log on {HOST.NAME} log[/var/log/scality-supervisor/cluster.log,,,,skip].str("ERROR")=1 and log[/var/log/scality-supervisor/cluster.log,,,,skip].count(1h,"ERROR")>4 and log[/var/log/scality-supervisor/cluster.log,,,,skip].nodata(1m)=0 ログ 文字列"ERROR"が検知された場合および文字列"ERROR"の個数が1時間に4個以上だった場合および60秒以内のデータの受信数が0個だった場合

コンフィグの設置

/etc/zabbix/zabbix_agentd.d/userparameter_scality.conf
# Custom Monitoring Items
UserParameter=custom.scality.supervisor.ringsh.ringstatus.meta.ssd.ng,/usr/bin/ringsh supervisor ringStatus META | grep 'ssd' | grep 'NG' | wc -l
UserParameter=custom.scality.supervisor.ringsh.ringstatus.data.disk.ng,/usr/bin/ringsh supervisor ringStatus DATA | grep 'disk' | grep 'NG' | wc -l
UserParameter=custom.scality.supervisor.ringsh.serverlist.online,/usr/bin/ringsh supervisor serverList | grep 'online' | wc -l
UserParameter=custom.scality.supervisor.ringsh.serverlist.offline,/usr/bin/ringsh supervisor serverList | grep 'offline' | wc -l
UserParameter=custom.scality.supervisor.ringsh.ringstorage.data.disk.avail,/usr/bin/ringsh supervisor ringStorage DATA | grep 'Disk avail' | cut -d ' ' -f 4 | awk '{ printf("%d",$1 + 0.5) }'
UserParameter=custom.scality.supervisor.ringsh.ringstorage.data.disk.used,/usr/bin/ringsh supervisor ringStorage DATA | grep 'Disk used' | cut -d ' ' -f 4 | awk '{ printf("%d",$1 + 0.5) }'

zabbix-agentの再起動(CentOS 5, 6)

[root@localhost ~]# /etc/init.d/zabbix-agent restart

zabbix-agentの再起動(CentOS 7)

[root@localhost ~]# systemctl restart zabbix-agent

関連記事

Zabbix監視テンプレート(Scality 6 RING)
Zabbix監視テンプレート(Scality 6 SOFS Connector)

bloodia
Apple製品大好きな怠惰人。趣味は筋トレ、格闘技・プロレス観戦、ツーリング(2014年引退)、カラオケ、食べ歩き。高尿酸血症とカリウム欠乏症を患い中。適当な事を適当な塩梅で適当につぶやいています。
https://www.bloodia.net/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away