まえせつ
人生の1/4位エンジニアやってきたけどメッセージ監視がここまで生き残るとは思ってもみなかった!
深夜とかに
Zabbix「エラー!」
ワイ「なんやろな・・調査始めるか・・ディスク枯渇か。削ってくしかないなー」
(調査して5分後・・)
ザビ家「OK」
ワイ「自然復旧かよ・・寝るか」
(30分後)
ザビ「エラー!(ニチャア)」
というのを解消してくれるのが、このツール!
作ったわ!
詳しくはリポジトリで。バイナリをダウンロードして即使いたいならこっち
つかいかたは?
要するにSSHでコマンド投げて、世代数で評価して閾値を越えたら任意のコマンドを実行するツールです。
なので最近、閾値付近でうろうろしているサーバーに絞って監視を仕込めるのがウリです。
あと突発的に跳ね上がる値もキャッチしてくれます!
SREの朝会、みんなでダッシュボード眺めるとしても台数が千台越えしてたらターゲット絞るしかないし、それを定量的にやるってのもなぁって思って。
各自でバッチで気になるとこチェックかけて、問題あった結果だけアクションすれば良くね?ってのが
このツールの着想です。安全な警告と危険な警告の総合評価ってまだ人間しか出来ないと思うしさ。
あとがき
こういうのcronでブン回したら監視SaaSをクラウドに適用する意味も薄れるかもしれないと思う。
クラウド補完計画がkubernetesで実現するとしても、それはまた先の未来で今は人のインサイト頼りで当面それは変わらないだろな。。