システム監視って結局なに？

Last updated at 2017-12-19Posted at 2017-12-19

こんなことありませんか？？

システム監視？とりあえずツール入れたろ！

１週間後
なんかアラートメールいっぱいくるンゴ

１か月後
特に問い合わせもなさそうだし大丈夫かな・・・

３か月後
メール届き過ぎ、うざいからフォルダ分けして隔離したろ！

ある日
監視してたのに障害起こったンゴｗ

何が問題？？

・通知のさせすぎで重要な通知を見落とす可能性
・監視ツールを導入したが、実際に今システムがどんな状態なのかわからない
・監視したい項目がカバーしきれない

今回は過去のプロジェクトを例に、監視ツール（NewRelic）と監視スクリプト（powershell）を使い監視基盤を改善しました、というお話です。

※当時のリソースが見れなくなってしまったので、画像すくなめです・・

AsIs

参画以前から基盤自体は存在していました

◆やっていること
　・アプリで発生したエラーをTableStorageに格納。
　　オンプレの監視サーバからTableStorageを監視スクリプト（powershell）で数分おきに確認。
　　エラーがあればメール通知。
　・サーバのメモリ使用量等のインフラ寄りなアラート通知は
　　Azureの標準監視機能を使用。

◎ポイント
　・アプリケーションではログ出力以外に、エラー発生のタイミングで検知用のエラーコードをTableStorageに出力している。

ある程度監視構成はできていますが、以下の問題がありました。
　・検知したエラーは全て通知
　・検知したいエラーが不足している
　・通知されたエラーの原因がわからない、そのための調査材料はログだけ
　・そもそも現在システムが稼働しているのかどうかわからない

次のToBeでは監視スクリプトの改修と監視ツールを導入した状態になります。

ToBe

構成としては
　　監視スクリプト　　　　：アプリケーションから出力される細かなエラーの検知
　　監視ツール（NewRelic）：サーバ（CPU、メモリ使用率）監視、アプリの死活監視
といった使い分けとなりました。

ToBeに向けてやったこと

①エラーの原因を調査

結果からエラー毎に重要度のレベル分け
　アラート：単発でも発生したらまずい
　警告　　：頻度が高ければ調査が必要

② エラー別に通知の閾値を設定

①の結果を踏まえ監視スクリプトでエラー検知時に、同一エラーコードに対し閾値を設定

閾値を超えていればエラー通知処理（ごりごり・・・）

③監視ツール（NewRelic）の導入

不足していた監視項目をカバー（システムの死活監視など）また、通知用の閾値も設定。
　　　

NewRelicについて

NewRelicはアプリケーションのパフォーマンス計測や、サーバのリソース監視はもちろんですが自分でプラグインの開発もできます。
そのため柔軟性のある監視をすることができるので（後述）、導入メリットは高いと思います。

サーバのアラート（メモリ使用量が90%超えたみたいな）が通知されてきたとしても、それだけでは実際に何が起こっているのかわかりません。
NewRelicはサーバやプロセス単位で、現在と過去の状態をグラフィカルな画面から確認することができるので、アラート発生時に何が起きていたかという点を探りやすいのも魅力です。
⇒NewRelicポータルからサーバやアプリの状態履歴を確認し原因調査にも使用
　開発時のパフォーマンスチェックにも使用可能

サーバの状態の傾向をつかむことができれば、重大な障害が起こる前に予兆を知ることもできます。

※NewRelicポータル画面例※