1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

NI+C AdventCalendar GCP/GWS Team 2022Advent Calendar 2022

Day 11

Cloud Monitoringからのアラート連携を整理してみた

Last updated at Posted at 2022-12-10

GoogleCloud上にアプリケーションを構築して、その監視にCloudMonitoringを使うことが多いです。
ただ、毎回設定で悩むところがあるため、ここで改めて整理することにしました。

Cloud Monitoringとは

Google Cloud のオペレーション スイート(旧称 Stackdriver)の機能群の一つです

公式の引用

Cloud Monitoring では、クラウドで実行されるアプリケーションのパフォーマンスや稼働時間、全体的な動作状況を確認できます。Google Cloud サービス、ホストされた稼働時間プローブ、アプリケーション インストゥルメンテーション、その他のさまざまなアプリケーション コンポーネントから、指標、イベント、メタデータを収集します。このデータをグラフやダッシュボードで可視化して、指標が想定の範囲外になったときに通知されるようアラートを作成できます。

要は、GoogleCloudの様々なデータで監視をしてくれるということです。
「様々なデータ」についてここで詳しくは言及しませんが、Google Cloud リソースのCPU使用率やAPIリクエスト数といったものだったり、Cloud Loggingへの出力を任意の条件で絞り込んだ「ログ指標」など、広く利用可能です

「指標が想定の範囲外になったときに通知されるようアラートを作成できます。」が今回のメイントピックです。
全体の動きとしてはこちらの図のようなイメージになってきます。

202212_qiita.drawio.png

アラート設定の使い方

アラート設定は「何が(どの指標が?)」「どうなった時(想定の範囲外とは?)」を定義してあげて、その状態になったときに任意の相手に通知するというものです。
「何が(どの指標が?)」については、CPU利用率であったり通信のドロップ数(率)であったり、目的が明らかであれば特に選ぶのは難しくないと思います。

一方で、「どうなった時(想定の範囲外とは?)」についてはやや複雑になってきます。
ここでは以下の概念を把握する必要があります

  • ローリング ウィンドウ
    指標の評価をする期間を設定するパラメータです。
    以下、公式ページの図が、イメージをつかむのに良さそうでした。
    image.png

ここでは、ローリングウィンドウを5分間とした時に、どのタイミングの指標値を評価対象に含めるかということを示しています。
丸でプロットされたところが青色になっているのが、評価対象ということを示しています。
5分間のローリングウィンドウでは、直近5分での値を評価値として1分ごとにスライドしていきます。

したがってそれぞれのタイミングで評価に使われる値は以下となります。
・start の時 : [0,0,0,0,1]
・start + 1mの時 : [0,0,0,1,1]
・start + 2mの時 : [0,0,1,1,1]

なお、設定できるウィンドウは最短1分で、1秒単位で設定可能です。

  • ローリングウィンドウ関数
    ローリングウィンドウの値を取り扱う関数(計算方法)を選択します。
    代表的なものだとsum(合計)、count(データ個数) mean(平均値) などがあります。
    先ほどの図の例で行くと、以下のように取ることができます。

・start の時 : [0,0,0,0,1] => sum = 1
・start + 1mの時 : [0,0,0,1,1] => sum = 2
・start + 2mの時 : [0,0,1,1,1] => sum = 3

  • アラート条件
    上記、ローリングウィンドウとローリングウィンドウ関数により算出される値がどうなった時にアラートを発砲するかを決めます。
    「閾値(Threshold)」または「Metric absence(不在条件)」による設定となります。
    ・閾値: 任意の閾値を設定し、監視により算出された値が閾値を上回った場合にアラートを発砲する
    ・不在条件: 任意の期間を設定し、その期間に監視データが無かった場合にアラートを発砲する

ケーススタディ

実際にアラートを作成してみます。

VMのCPU利用率が5分間の平均で80%を越えたらアラートを発砲する

考え方としては以下のようになります。

  • 指標: CPU使用率(CPU_Utilization)
  • ローリングウィンドウ: 5分
  • ローリングウィンドウ関数: 平均(mean)
  • アラート条件: 閾値 80%

それぞれ実際に設定してみます。

  1. 指標の設定
    VM Instance > instance > CPU utilizationを選びます。
    image.png

  2. ローリングウィンドウ、ローリングウィンドウ関数の設定
    それぞれを設定すると、実際にその設定から算出される値がどうなるのかを見ることができます。
    qiita_1_2.png

  3. アラート条件の設定
    閾値 80%を設定します
    image.png

  4. 通知先の設定
    細かいところはここでは言及しませんが、前述の全体図のように、ここからメールやPub/Subといった通知先を指定することができます。
    image.png

終わりに

Cloud Monitoringのアラート設定回りは、設定項目に複雑なものが多く、若干とっつきにくいところもあります。ただし、それだけ多くの指標がGoogleCloudの中で取得されているということでもあり、うまく使えれば非常に頼もしい機能となります。
ぜひ活用してみてください。

参考

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?