背景
仮想マシンの状態を監視したい、何かあったらアラートを飛ばしたい。
Log AnalyticsやらAzure Monitorやら使えばいいんだろうけど、クエリとかよく分からないし、難しい。
けれど、仮想マシンが落ちてしまっているかどうかの死活監視くらいなら簡単にできます!
ということで難しいクエリとかは書けないけど死活監視はしたい私みたいな人用の手順をまとめます。
前提
死活監視の手法としてインフラ系の人はping監視を思いつくかもしれませんが、AzureVMにおいてはping監視というものが(私が調べた範囲では)ありません。
もし、できるよ!ということなら是非、教えてください。というか是非記事にしてください。私が助かります。
まぁ一旦ping監視が無いとして、代わりにAzureではHeartbeatを使います。HeartbeatはVMが正常に動いてるよ~という定期的な信号です。これを監視して、信号が途絶えたならばVMが落ちてる!とアラートを鳴らしてもらうようにします。
また、下記のブログにも記載がありますが今回行うHeartbeatによる死活監視はあくまでゲスト(仮想マシン自体)の死活監視を行うものなのでAzure自体やAzureのログ収集・アラートに関しての障害時には正常に作動しない場合がありますのでご注意ください。
Azure VM における死活監視の考え方 - 2. 各レイヤーの監視方法
構成
VM上のデータ(今回はHeartbeatとします)は、まずLog Analyticsワークスペースというデータのプール的な場所に収集します。
VMとワークスペースは一対一でも良いのですが、あまりワークスペースを乱立させても管理が大変なので、VMの用途ごとやセグメントごとなどある程度のくくりで1つのワークスペースのようにまとめると良いと思います。
このVMとワークスペースを繋げる(データを収集させる)のがデータ収集ルール(DCR)です。
ワークスペースにデータを送っただけではただふよふよ溜まっているだけなので、アラートルールを作成します。このアラートルールこそがワークスペース内の特定のデータを監視し、特定の条件のもとでアラートを出します。
アラートの実際の通知方法や通知先はアラートルールとは別にアクショングループというもので設定します。アラートルールを作るときにどのアクショングループにするか選択する(紐づけする)ので、アラートルールでアラートが発生したときは紐づけられたアクショングループに設定されている連絡先へ所定の方法で通知が飛びます。
アラートルールとアクショングループは一対一でも良いですし、例えば同じVMでもHeartbeatとCPU使用率で別々にアラートルールを設定しているときに同じVMなので通知先は同じにしたい場合など複数対一の対応も可能です。この辺良くできてますね。
設定手順
ワークスペースの作成
※既にワークスペースがあって、それを使う場合はスキップしてください。
1)Azure portalにログインし、上部の検索バーからLog Analyticsワークスペースと検索してサービスを開きます。
2)作成をクリックします。
3)サブスクリプション・リソースグループ・名前・リージョンを適当なものを選択・記入します。リージョンはこの後で作成するデータ収集ルール(DCR)と同じにする必要がありますので注意してください。
4)タグを任意につけて、作成をクリックし完了です。
データ収集ルール(DCR)の作成
1)Azure portalに入り、左上のハンバーガーボタンから「監視」をクリックします。
2)モニターのメニューの「設定」-「データ収集ルール」-「作成」をクリックします。
3)ルール名・サブスクリプション・リソースグループ・リージョン・プラットフォームを適当なものを選択・記入します。
※リージョンは使いたいワークスペースと同じである必要があります。
※データ収集エンドポイントはそのまま<なし>で大丈夫です。
4)「リソースの追加」をクリックします。範囲の選択が出るので、目的のVMを検索・選択して適用します。
5)「データソースの追加」をクリックします。データソースについてはパフォーマンスカウンターを選択します。
6)ターゲットタブの方で「ターゲットの追加」をクリックし、ターゲットの種類に「Azure Monitor Logs」を、宛先の詳細に使いたいワークスペースを選択します。その後画面下部の「データソースの追加」をクリックします。
7)タグを任意につけて、作成をクリックし完了です。
アラートの作成
1)Azure portalに入り、左上のハンバーガーボタンから「監視」をクリックします。
2)モニターのメニューの「アラート」-「作成」-「アラートルール」をクリックします。
3)リソースの選択で先ほどデータ収集ルールで設定した、データの集まってるワークスペースを選択します。
※ここで選択するのはワークスペースの方で、VMではないので注意してください。
4)条件タブに移動し、シグナル名に「カスタムログ検索」を選択します。
※当該ワークスペースに一つのVMしか接続していないならHeartbratを選択しても良いのですが、今回は複数のVMをワークスペースに接続する想定でクエリによって、ワークスペース内の特定のVMのデータのみを監視するように設定します。
5)クエリを記入する画面が出てくるので、下記のクエリを記入し「実行」をクリックします。ワークスペースにデータが収集されており、正しく抽出できていれば下部に結果が表示されます。実行ができたら画面下部の「アラートの編集を続行する」をクリックします。
Heartbeat
| where Computer =="<コンピュータ名>"
| where TimeGenerated > ago(5m)
6)「測定」の部分は下記の通りそのままでOKです。「アラートロジック」は演算子を「次の値より小さい」、しきい値を「1」にします。
これによってクエリと併せて、
ワークスペース内の特定のVMのHeartbeatに関して
5分毎に
それまでの5分間の
値(カウント)を見て
1未満(=0)だったらアラートを飛ばす
=5分間ダウンしていたらアラートを飛ばす
といった設定になります。もちろんこの辺りは要件に合わせて変えてください。ただ時間間隔などの設定を変えるとアラートルールの料金も変わってくるのでご注意ください。
7)アクショングループの設定をします。既にあるアクショングループを設定する場合は「アクショングループの選択」をクリックしますが、今回は新たに作る前提で「アクショングループの作成」をクリックします。
9)通知タイプは
・Azure Resource Manager のロールへのメール
・電子メール/SMSメッセージ/ブッシュ/音声
の好きな方を選択します。当該VMの管理担当者とかに通知したいなら下の方が合ってそうですね。ここも要件に合わせて設定してください。
10)次のアクションタブについては省略可能なのでスルーします。タグを任意につけて、作成をクリックします。
すると、アラートルールの作成画面に自動で戻り、今作ったアクショングループが設定されます。
11)詳細タブでは重大度、アラートルー名に適当なものを選択・記入します。
アラートルールの説明のところはAzure portal上で補足説明として確認できるもの…と思いきやアラートメール中にも含まれるので簡単な日本語の説明とか入れておくと分かりやすくなると思います。
12)タグを任意につけて、作成をクリックし完了です。
これで設定したVMが落ちたときにアラートが飛ぶようになります!
上記の設定だと、アラートメールが飛び始めたら、VMが落ち続けている限り5分ごとにアラートメールが飛んできます。煩わしいといえば煩わしいですが、VMが復活するとアラートメールも止むのでAzure portalを見られない人にも分かりやすいですね。
補足
VMからデータ収集ができない - NSGの設定
DCRを設定したのにデータが収集できない…そんな時はネットワーク設定の方でブロックされているかもしれません。
うまく収集できないときは当該VMのセグメントのネットワークセキュリティグループ(NSG)に次の設定を入れてみるといける…かもしれません。
クエリに書くコンピュータ名について
このクエリ
Heartbeat
| where Computer =="<コンピュータ名>"
| where TimeGenerated > ago(5m)
に書くコンピュータ名はドメイン参加している場合にはドメイン名も書きます。逆にドメイン参加していなければドメイン名は要りません。
つまりこんな感じです。
例えばVMの名前が「SampleVM」として、
Heartbeat
| where Computer =="SampleVM"
| where TimeG
Heartbeat
| where Computer =="SampleVM.contoso.local"
| where TimeG
このコンピュータ名について、分からない、不安という場合には実際にワークスペースに収集されているHeaartbeatテーブルの中身を見ることでComputer列にて上記に記載すべきコンピュータ名が確認できます。
ワークスペースのテーブルの見方
1)Azure portalに入り、左上のハンバーガーボタンから「監視」をクリックします。
2)モニターのメニューの「ログ」をクリックします。
3)「スコープの選択」で見たいワークスペースを検索・選択します。
4)下記のクエリを記入し実行します。
Heartbeat
| where TimeGenerated > ago(1h)
| take 10
収集されたHeartbeatが結果として表示されますので、Computer列に注目します。アラートルールに書くクエリも結局このデータの内computer列でクエリに書いたのと同じデータを見ている訳なのでこれをコピペすれば間違いないでしょう。
おわり
AzureMonitorは難しいですね。でもやってみると死活監視だけならそこまで難しくありませんでした。
ITに疎い私には大助かりです。
自分用の備忘録も兼ねていますが私と同じようにAzureに挑戦している人の参考になれば幸いです。