0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

datadog を触ったが、情報を個人的にわかりにくく整理した

Posted at

目標

  • エラーの種類別にエラーを検知し、Slackにメンションを飛ばす
  • 新規のエラーと既存の潜在突発的エラーを任意のアカウントに通知したい
  • エラー元は、APM ,RUMの二つに分かれる
 

前提知識

  • datadog
    • アプリケーションやNW,サーバに至るまで様々なリアルタイムの監視が可能なもの
  • monitor
    • 監視するものを指定して、メトリクスが閾値を超えたもしくは下回ったときにアラートおよび通知を行う機能
  • watchdog
  • RUM
    • Datadog real usre monitoring
    • アプリケーションの個々のユーザーを監視して、視覚化するもの
    • 主にフロントエンドのエラーが多い
  • APM
    • Application performance monitoring の略称
    • API、URLなどにユーザーがアクセスすると、ログが蓄積されいくイメージ

MInioterの作り方

  1. Minitor画面→ new-monitorを選択→要件で作成
    • でもこれだと、項目がありすぎて分かりにくい
  2. それぞれのタブから作成する(RUM、APMのページ)
    • わかりやすいが、若干上と画面が異なるので、困ったら、行き来することが大切
  • 具体的なそれぞれの作成方法
新規エラー 既存エラー
APM 2で作成 Watchlogで検知してくれているので、1でWatchlogを選択して作成
RUM 2で作成 ⚠️ Watchlogで検知されないので、2の専用画面で作成する必要あり

新規エラーに関する検知Monitor作成

  • Monitor作成方法2で行う
  • ここでは、RUMで解説
  1. Digital experience → error tracking→ new monitorから作成画面を開く
    1. 今回はここの画面のうち、NEW と表示されているもののみ通知が来るようにしたい
  2. 設定するもの(/4)
    1. select alerting condition
      1. 今回は新規エラーの検知なので、Countを選択
    2. define the search query
      1. エラー収集の方法を設定する
        1. 何を収集するのか
          1. エラーの件数の合計か、または平均かなど
          2. この部分の柔軟性はほぼ0😢
        2. どの時間あたりでカウントするのか
    3. set alert conditions
      1. アラートおよび警告を発するス閾値について設定
    4. Configure notifications & automations ⚠️ 
      1. 通知時メッセージの設定

        1. スラックとの連携
          1. Datadog を使って Slack のユーザーグループのメンションで通知する方法
        2. 変数の導入
          1. 高度なフィルタリング
        3. 条件文の導入
          1. datadogでタグを使って1モニターから複数の通知先を出し分け設定する
      2. 再通知の設定

        1. 再通知を行うのか
        2. 行う時間間隔はどの程度か
        3. 何回まで再通知を行うのか
          1. 再通知の回数を一回以上か、何分間隔かなどを定めることができる

        スクリーンショット 2024-07-04 16.35.26.png

      3. メタデータの設定

        1. タグ
          1. 環境の設定などが可能
        2. チーム
        3. 優先度
          1. P1(最優先)-P5まで設定可能
    5. Define permissions and audit notifications
      1. Moniorの変更検知を監視し、変更がされたときに通知する

⚠️既存のRUMエラーを検知したい件について

問題

APMと同じように、Watchdogから検知したいがこれはRUMを監視していない

対応

  • Error Trackingから大量に発生しているエラーを検知したい
    • 相対的な危なさを検知する指標として、以下のimpacted sessionがある
      • APIが叩かれた回数に対して、失敗した回数を表す
    • これが、1%以上のものを検知すればいいのではないかという気持ちになる
  • 残念なことに、Monitorには確率を設定できる部分は設定されていない
  • つまり、先ほどのMonitorのCの部分で任意の数字を定めて設定する必要がある
    • 例えば、よくinpact session になっている件数を過去のデータから絞るなど

参考文献

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?