munin 障害時の確認ポイント

  • 7
    Like
  • 0
    Comment
More than 1 year has passed since last update.

概要

  • munin のグラフがいつまで経っても作られない時に確認したポイント
  • cronは設定されているのにいつまでたってもグラフ生成されない原因を探しハマったのでメモ
  • cronで実行される /usr/bin/munin-cron と ステータス情報を出力してくれる munin-nodeサービスの確認がキモのはず。
  • munin-node : ステータス情報を生成する。
  • munin-cron : munin-node で生成された情報を集める。

munin-nodeの設定を疑う

  • /etc/munin/munin-node.conf
  • munin-node のサービスは動いているのかを確認
  • ログのチェック /var/log/munin-node/* 更新されてる?内容は?
service munin-node status
service munin-node stop
service munin-node start
  • munin-nodeの動作している対象ノードにアクセスしてステータスが出るか?telnet ${host} 4949
telnet localhost 4949
  • ホスト名、その他情報を確認できればmunin-nodeでのステータスの生成は出来ている。
  • munin-node は動いているが別のホストから munin-cron で値を拾えないのであれば munin-node の動いているホストと tcp/4949 の疎通ができるか確認。

munin-cronの設定ファイルを疑う

  • /etc/munin/munin.conf
  • ログのチェック: /var/log/munin/* 更新されてる?内容は?
  • ログのチェック: /var/log/cron エラー出てない?

munin-cronをデバッグモードで手動実行

  • どこの処理でコケているかを見る
sudo su - munin --shell=/bin/bash
/usr/bin/munin-cron --debug

~
not a reference at /usr/share/perl5/vendor_per/Munin/Master/Utils.pm line 866

といったようなエラーが出て止まる

基本的には munin-node サービスが正常に動いてさえいればOKなはずだが…

ホスト名を疑う

  • 参考: https://bugzilla.redhat.com/show_bug.cgi?id=955902
  • バージョンによっては監視対象のホスト名に "_" が入っているとmunin動作が正常に行えない場合があるようです。
  • 自分の場合はコレが原因でした。
not a reference at /usr/share/perl5/vendor_per/Munin/Master/Utils.pm line 866

デバッグモードで実行した際に上のエラーが出て止まり、munin-node サービスも起動しているし設定のおかしい箇所も無かったのですが、ホスト名に含まれていた "_" を除外したらうまく動いてくれました。

参考にしたサイト等