はじめに
このたび、システムの監視について深く考えてみようと思いこの記事を書いています。
オライリーから出版されている「入門 監視」を読んで自分の考えと合わせてまとめていこうと思います。
アンチパターン
- ツールに依存しても、監視の仕組みはよくならない
- 監視は全員でやるべき仕事であり、チームや部署内での役割ではない
- 素晴らしい監視とは、チェックボックスに「これは監視しています」とチェックを入れて済むものではない
- 監視するだけでは壊れたものは直らない
- 自動化が足りていないということは何か重要なことを見落としている可能性を知る良い方法
自分自身の体験でも心当たりがあるものが多く、耳が痛い限りですが一つずつ見ていくとします。
ツールに依存しても、監視の仕組みはよくならない
これは監視ツールだけに限らず、他のツールや仕組みに対して起こることだとは思います。
いわゆる、大企業が導入しているからという理由で導入したり、他の部門が使っていてうまくいっているから導入するというパターンです。
導入事例があるというと聞こえがいいが自分たちのシステムとあっているとは限らないので注意すること
監視は全員でやるべき仕事であり、チームや部署内での役割ではない
素晴らしい監視とは、チェックボックスに「これは監視しています」とチェックを入れて済むものではない
この2つの項目に関しては同時に出ることが多く、よく見てきた事象でもあります。
例えば、システムに詳しくなく引き継いだ運用。引き継いだものの監視の設計はされておらず、本番環境である以上「監視しろ」というお達しも…
某Excelとかで監視項目の表を作り、これを監視していますというチェックボックス監視ができあがり、詳しくないためにシンプルで簡単なものしかできず。。。いざ、何か起こると何もできず…
という何重苦にもなる事象
監視するだけでは壊れたものは直らない
上の話と通じるものがあるが何かが壊れたらそれに対する監視をする...直接的な解決をせず監視に頼るように項目を増やしても不完全なアプリケーションは直らないという話です。
自動化が足りていないということは何か重要なことを見落としている可能性を知る良い方法
従来のオンプレ環境とクラウド環境では監視する観点は大きく違います。
個別に何かを監視している従来に対しクラウド環境は何かの集合全体を監視することです。
まとまりを監視していくクラウド環境では自動化が必須となります。
まとめ
このアンチパターンは仕事をしていて体験したこととリンクしてあるあるという感じで、まだまだ自分の周りでも多く見られる事象であると感じました。
これを基に今後、どう設計していくかの話もまとめていこうと思いますが本の中でもまだ第1章で長くなりそうなので分けて投稿しようと思います。
全部まとめるまでどれくらいかかるかわかりませんが少しでもお役に立てれば幸いです