2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

New Relic Advent Calendar 2023 シリーズ3の25日目の記事です。メリークリスマス🎅

対象者

  • 監視オブザーバビリティのことはなんとなく知ってる
  • 今まであまり監視に触れてこなかった
  • なんとなく監視してる

わかること

  • 監視とオブザーバビリティの違い
  • なんちゃって監視の危険性
  • New Relicで監視する時のポイント

監視とオブザーバビリティ

監視

システムにおいて特定または複数の視点であらかじめ想定された事象を検知し、通知すること。

オブザーバビリティ(可観測性)

システムの全容をどれくらい把握し、問題の予防や事象の根本原因を特定できるようにしているかを表す尺度。「O11y」と省略される。

監視は取り組みであり、オブザーバビリティを向上させるための1つの方法と言えるでしょう。

New Relic

New Relicはオブザーバビリティを向上させるための機能を揃えたプラットフォームサービスです。

概要はウェビナーのアーカイブ動画をご覧ください。
New Relic はじめの一歩

監視運用上の問題

監視の基本的な構築プロセスはざっくり以下のフローになるかと思います。

ここで以下の問題に直面することがあります。

ケース⑴ ほら吹きアラート

  1. サーバーのCPUが85%を超えたため監視ツールから担当者へアラートが自動通知される
  2. 担当者は該当サーバーで稼働中のアプリに影響がないことを確認する
  3. 1.と2.が何度か繰り返される
  4. 当アラートが通知されても担当者は影響確認しなくなる

ケース⑵ 属人化アラート

  1. サーバーのCPUが85%を超えたため監視ツールから担当者へアラートが自動通知される
  2. 担当者は該当サーバーで稼働中のアプリに精通しており迅速にアラート対応ができる
  3. 担当者が変わった後、当通知が来てもどうすれば良いかわからない
  4. 対応が遅くなる

上記は適当に作成したアラートをそのまま放置したり、対応ノウハウを蓄積・アウトプットしないことが原因で発生したと考えられます。

そのため

  • 監視運用開始後、定期的にアラートの内容を見直すこと
  • アラート内容に対応ノウハウを含めること

により問題を回避することができます。

New Relicでは Alert & AI で通知する内容をカスタマイズすることで対応できます。

  • まずはアラートを作成・運用して対応ノウハウを蓄積していきましょう
    • 最初から一般的な解決方法を通知内容に含めてもOK(ページリンク、生成AI)
  • 次にアラートの対応方法を整理して通知内容に含めましょう
    • 対応方法を記載したドキュメントのページリンクもOK
  • アラートの対応方法を通知内容に含められないようであれば、アラートの削除かデータや閾値の見直しを検討しましょう

アラート通知内容のカスタマイズ及び任意の通知先に飛ばす方法
カスタムインシデント
AWS EventBridgeとの連携によるインシデント対応の効率化(架電編)

さいごに

今回はNew Relicを導入して実際に直面した問題を取り上げてみました。
すでに監視に携わっている、またはこれから監視を始める方のご参考になれば幸いです。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?