メモリ使用量のメトリックはとれるんだけどアラートにできない、と言われて調べたら確かにできなかった。
標準で出来そうな感じですが、LogAnalyticsでアラート設定するのが一番楽そう、ということで以下を参考にした。
やりたいこと
VirtualMachine(VM)のメモリの使用量が xx% 超えたらアラート出したい。
前提
- 対象のVMが存在すること
作業概要
- LogAnalyticsワークスペースを作成
- VMにOMSエージェントを導入、ワークスペースとVMを接続
- LogAnalytics上から取得メトリックを設定
- LogAnalyticsを基にアラート設定
作業
LogAnalytics ワークスペースを作成
「Log Analytics ワークスペース」で適当に作っておきます。
VMにOMSエージェントを導入、ワークスペースとVMを接続
OMSは Operations Management Suiteという製品の略です。今回はLogAnalyticsへのデータ送信としてのAgentとして使うので、OMS自体を使うわけではない(はず)です。
対象のVirtualMachineのブレードから拡張機能として入れても良いですが、LogAnalyticsワークスペースからVMを指定して接続するほうが簡単です。
LogAnalytics上の仮想マシンブレードから対象のマシンを選びます。
接続を押してしばらく待つとワークスペースと繋がります。(VM上でAgentのインストーラが走ります)
LogAnalyticsで取得するメトリックを設定
LogAnalyticsワークスペース上の詳細設定ブレードからData→Linuxパフォーマンスカウンタを開き「選択したパフォーマンスカウンターを追加する」をクリック。
サンプリングの間隔などを変更したら保存。設定反映には少し時間がかかります。
また、転送量の課金が貧乏性にはそこそこ大きい(¥374.08/GB)です。サンプリング間隔やメトリック数は少し吟味したほうが良いかもしれません。
3~5分ほど待ち、ログのブレードを確認します。Perfを見ると溜まっていっている様子が見えます。
LogAnalyticsを基にアラート設定
ここまで出来たら後はアラート設定するだけです。
リソースにLogAnalyticsを選ぶ点に注意です。
LogAnalyticsのCounterNameの値がメトリックとして出てくるので選びます。
今回はComputer(VMホスト名)単位で見たいので選びます。ちなみに1メトリックにつき「0.1ドル*台数分」がかかるようです。1000台で約1万円。
確認
VM上で適当にメモリを確保します。CentOS 7はPythonが標準装備なのでこんな感じで。
# 400MB取り10分間スリープ
python -c 'import sys, time; x = "a" * int(sys.argv[1]); time.sleep(600)' $((1024 * 1024 * 400))
2つのVMのログを1個のLogAnalyticsワークスペースに集約しています。
しばらくするとメールがきます。
アラートの条件でも制限していなかったので、2通来ています。
アラートの条件で選択するとちゃんと1通だけ来ます。
しかし件名からはどこかわかりません。画像中の赤線部分だけです。気になる人はアラートを分けて作ったりしましょう。
その他
自動化回り
アクショングループで対応できるようになり、比較的設定やメールアドレス変更対応等が簡単になりましたが、アラート設定周りはミスしやすいです。
幸い、コマンドやテンプレート化が可能です。(試していない)
データ転送量を制限したい
料金はLogAnalyticsのデータ転送量に依存します。「LogAnalytics」だからとログを流すと容易に死にます。
上記の手順には書きませんでしたが、LogAnalyticsワークスペース上から日時上限を設定できるので、ぜひ設定してください。小数点も0.023GBまでできます。デフォルトは青天井のようです。
また、日時上限設定するとイベントログがLogAnalyticsに流れることによりアラート設定もできるようです(試していない)
他になかったの?
仕組み的に、ホストからゲストVMのメモリやストレージ情報を取るのは難しいようです。そのためエージェントを使っているように見えます。(CPUはなんで取れるんですかね?)
- ApplicationInsightsにメトリックを送るのは?→JVM監視ならやってよいが、それ以外はオーバーキル感がある
- Zabbixとかは?→元々あるなら使っても良いかと思います
- PaaSは?(Mackerel,DataDog等)→使えるならそっちで良いかと思います
楽で簡単で最高な方法が乗り換えたいところ。
(追記) TelegrafとAzure Monitorのカスタムメトリックを使う方法を教えてもらいました。
Azure VMのメモリ使用量などのアラート設定(Telegraf+Azure Monitor編)