More than 5 years have passed since last update.

株式会社セゾンテクノロジー

AzureサービスだけでIaaSをどこまで監視できるか試してみた

Posted at 2018-02-27

JP1/System Walker/Datadog/Mackerelといった監視エージェント。とても便利ですよね。

でもAzureにも監視サービスがいくつもあります。

そこで、AzureのサービスだけでIaaS(Virtual Machines)をどこまで監視できるかを試して、監視エージェントが必要なケースを纏めてみました。

監視したいものは何か？

はじめに対象を定義しておきます。

対象OS
Windows/Linux問わないこととしますが、この記事ではWindows Serverをベースに解説しています。値は違いますが、基本的にはLinuxにも適応可能だと思って下さい。
監視したいもの
- CPU使用率やメモリ使用率等の各種パフォーマンス情報
- イベントログ(syslog)
- サービス(プロセス)

最終的な構成図

Azureオンリーで監視しようとした場合の私的最適構成案がこれです。
なぜこういう構成なのかと、実現するための手順を解説していきたいと思います。

細かく解説

まずはここのラインから

メトリック

IaaSであれPaaSであれ、Azureではパフォーマンスと正常性を視覚的に確認できるメトリックが標準で準備されています。CPU使用率とかネットワークI/Oとかの数値データですね。
メトリックは1分間隔で取得されます。

ホストVMメトリック

[メトリック]→[メトリック値]の順に選択します
ここでは[ホスト]Percentage CPUを選択してみます

以下のような感じでCPU使用率が表示されました

過去24時間のCPU使用率が表示されていますが、最大で30日間のメトリックを確認することが可能です。

ゲストVMメトリック

デフォルトだと以下の項目に対するメトリックを確認することができます
なんだか少ない気がします。例えばメモリ使用率とかディスク空き容量とかを確認したい場合はどうすればよいのでしょうか
[ホスト]と表示されていることがポイントで、仮想マシンをデフォルトで作成した直後だと、ゲストOS側からパフォーマンス情報を取得しておらず、Azureホストからのみ取得している状態です
ゲストレベルの診断を有効にすることで、OSのパフォーマンスモニター情報を取得することができます
ゲストOSのパフォーマンス情報まで取得するためには、[診断設定]を選択します

[ゲストレベルの監視を有効にする]を選択します

しばらく待つと以下のようにパフォーマンスモニターの情報を確認することができます

ちなみにゲストレベルの監視は、仮想マシン作成時に設定することも可能です
作成時に[ゲストOSの診断]項目を、[有効]にすることでゲストOS診断を有効にした状態で仮想マシンを作成できます

ゲストVMメトリック確認

項目を見ると分かるようにWindowsのパフォーマンスモニター値がそのまま表示されています

ディスク空き容量を見てみます。以下は過去1時間のディスク空き容量のメトリックです

ちなみに実態はVirtual Machines拡張機能「IaaSDiagnostics」が追加されたことで、ゲストOSのパフォーマンスモニタ情報を取得できるようになりました

アラート

ここまでで細かいリソースのパフォーマンスを可視化することができました。
次は閾値を超えた場合のアラート通知についてです。

メトリックアラート

アラート画面から[メトリックアラートの追加]を選択します

監視対象メトリックと閾値、期間を設定します
この例では、5分以上、CPU使用率が90%より大きくなった状態が続いた場合にアラートとして検知します

次にアラートを検知した場合の通知手段を選んでいきます

通知手段は以下から選択できます
- メール
- Webhook
- Automation Runbook
- Logic Apps
Webhook/Runbook/Logic Appsが選択出来るため、通知方法はいろんあパターンがあるかなと思います
- 例えば、Twilio APIを呼び出して架電したり、PagerDuty APIを呼び出して架電したり、Slackに通知したり
- メトリックアラートからだとWebhookカスタムペイロード指定ができないので、Webhook単体だとSlack通知できません。Logic Appsを間にかますか、RunbookのPowershellでSlack通知を書くかのどちらかになるかと思います

メトリックアラート設定確認

[アラートルール]から設定した内容を確認することができます

設定したアラートを一時的に無効化することも可能です

次にここのライン

Log Analyticsへイベントログ収集

ゲストレベルの診断を有効化するとパフォーマンスモニターだけでなく、イベントログもAzure Storage(Table)に収集することが可能です。
ただ、それを監視するためにはStorageから更にLog Analyticsに転送する必要があります。
長期間保管する用途でもない限りは、仮想マシンから直接Log Analyticsへ転送したほうが効率がよいです。

ポータルからLog Analytics（OMSワークスペース）を作成します

OMSワークスペースのメニューより、[仮想マシン]を選択します

イベントログ収集対象の仮想マシンを選択して、[接続]ボタンを押します

ワークスペースへの追加が完了すると、仮想マシンの拡張機能「MicrosoftMonitoringAgent」が追加されます

これだけだとまだLog Analyticsが仮想マシンを認識しただけなので、ログを収集する設定をしていきます
OMSワークスペースのメニューより、[詳細設定]→[Data]→[Windowsイベントログ]の順に選択します

SystemとApplicationイベントログを追加します
Securityイベントログは収集できません。これはSecurity & Complianceソリューションを使ってねっていうメッセージだろうか。そのうち検証してみます。

OMSワークスペースのメニューより、[ログ検索]を選択します
クエリを発行することで収集したログを確認できます
以下はComputer名が「win-monitor」且つタイプが「Event」のものを抽出しています

以下のように結果が表示されます

Log Analyticsアラート設定

特定の条件のメッセージが出力されたときにアラート通知する設定を行います。

アラートルールの元となるクエリを発行し、[New Alert Rule]を選択します
ここではコンピュータ名が「win-monitor」且つタイプが「イベント」且つイベントレベルが「Error」のものを抽出しています

条件を細かく決めていきます。条件欄を選択します

閾値を設定します。このクエリを実行したときにヒットした数が閾値を超えた場合にアラート通知するという条件になります
1件でもErrorイベントを検知したらアラート通知したいので、ここでは「0より大きい場合」という条件にします

次に評価基準を設定します。「期間」はどれくらいの範囲を対象とするか、「頻度」はクエリ発行間隔を表しています

今回は10分間隔でクエリを発行し、クエリ発行から10分前までのデータを対象としています

ここで注意事項
頻度と期間を短くすればほぼリアルタイムで検知可能では？と思いますが、これには注意が必要です。
ソース（今回はイベントログ）からLog Analyticsへの送信頻度や間隔は指定できないので、いつデータが収集されるかが分かりません
あまり短くしすぎるとアラート検知漏れが発生する懸念があります
次にアラート名と重要度を設定します
最後にアラートを検知したときにどういうアクションを起こすかを定義します
以下のアクションを選択できます
- メール/SMS
- Webhook
- ITSM
- Automation Runbook
メトリックアラートと違って、Log Analyticsのアラートでは、カスタムJSONペイロードを含めることが出来るため、間にLogic Appsを挟まなくてもSlack通知が可能ですね
設定したアラートはLog Analyticsメニューの[アラート]から確認可能です