はじめに
業務でcloud monitoringを使うようになり、見よう見まねで進めていたらハマったので、
ここでまとめようかと思います。
こちらの記事で紹介するのは、cloud loggningからの指標をcloud monitoringで監視、アラートする内容になります。
cloud monitoringとは
クラウドサービスのインフラストラクチャリソースやアプリケーションのパフォーマンスを監視する Google Cloud の監視ツールのサービスになります。
リソースを監視することで、トラブルシューティングやパフォーマンスを向上させるために設計されており、カスタム指標、分析情報、アラート通知、稼働時間チェック、カスタム ダッシュボードなど様々な方法でリソース監視の設定をすることができます。
私は上記で、アラート通知の設定をしました。
アラート通知
今回はcloud loggningからの指標を取ってくるので、loggingでの指標作成を行います。
指標作成手順
- GCP>logging>ログベースの指標>指標の作成
- 指標タイプはCounterを選択
- Counterは対象ログをカウントする
- Distributionは対象ログの発生率を見る
- 詳細の設定
- nameを指定する(required)
- 指標の説明を入れる(任意)
- 単位はメトリック値が報告される単位を設定(任意)
- 対象のログを抽出する際のフィルタを指定
- 指標を作成
アラートポリシー作成手順
- monitoring>アラート>create policy
- new conditionで先ほど作成した指標を選択
- ローリングウィンドウは監視時間の間隔を指定する
- ローリングウィンドウ関数は検知されたログの計算方法を指定する
- 例:ローリングウィンドウ5分、関数sum >>> 5分間に検知されたログの件数の合計値
- トリガーの設定を行う
- condition typeを指定する
- thresholdは閾値を設定が設定でき、それを超えると発火する
- 例:閾値5で、5分間に検知されたログの件数の合計値が5件を超えた場合検知
- metric absenceはログの不在を検知でき、それを超えると発火する
- 例:不在5分で、5分間に検知されたログの件数の合計値が0件だった場合検知
- thresholdは閾値を設定が設定でき、それを超えると発火する
- condition typeを指定する
- 通知と名前は任意のものをつける
- ポリシーの作成
※複数条件のアラートポリシーを作成したい場合は、add alert conditionボタンで指標を増やす
複数条件の例:条件Aのログが5件を超え、条件Bのログが0件だった場合は発火
上記でも実現できなそうな条件のアラートポリシーを作成したい場合、MQL
を試してみるのも良いかもしれません。
参考
まとめ
今回はcloud loggingとcloud monitoringを使用したアラートポリシーの作成方法について、
紹介させていただきました。
GCPで使用中のリソースが増えるにつれて全体の管理が難しく、アラートポリシーの必要性が増してくるなと感じました。
バグの発生おきにログを追っている方などは、アラートを取り入れるのも悪くないかもしてません。