概要
Datadogの進化は早いですね。
今回は、Metric Correlation
という機能についてご紹介です。
Metric Correlation について
AWS Dashや夏のDatadogまつりMeetup でも紹介されていましたが、
「[レポート] 夏のDatadogまつりMeetup に参加してきました」によると
機械学習を活用し、異常が見られるメトリクスと同じ挙動しているメトリクスを探してくる(相関)
とあります。便利そう。
使い方
2019/9/26時点では、まだBetaという位置付けです。
こちらのBetaリクエストページからリクエストすることが可能です。
機能が有効になると、相関関係を調査したいグラフのshow this widget in full screen
ボタンを押すと、
タブメニューにCorrelation Beta
が追加されます。
使ってみた
今回は、aws.applicationelb.target_response_time.maximum
というALBインテグレーションのメトリクスを例に使用してみます。
1. 時間帯を選択
相関関係を調査したグラフを選んだら、調査したい時間帯を選びます。
調査対象の時間帯を調整したい場合は、Edit Search
ボタンを押せば調整可能です。
2. 調査対象の選択
相関関係を調査したいデータを選択します。
選択肢としては、
- インテグレーション(AWSやGCP等の各サービスごとのインテグレーションを指定可能)
- ダッシュボード(自前で作成したダッシュボードを指定可能)
- カスタムメトリクス
が選択可能です。
3. 検索実行
最後は、Search
ボタンを押すだけ。
しばらくとすると、相関関係のあるメトリクスが表示されるので、クリックしてみます。
4. 原因調査
ここからの調査は、自分でやることになります。
今回例だと
• LAが上昇
• io waitが上昇
• メモリが解放
• 12時ちょうどという時間帯
という事象からlogrotateが怪しいという仮説を導き出せました。
まとめ
レスポンスタイムが跳ねるという1つの事象だけだと、いろんな視点で調査することになると思いますが、
このMetric Correlation
を使うと相関関係があるメトリクスが取得できるので、トラブルシューティング時に役に立つなと思いました。
これがボタン1つで可能とは、Datadog恐るべしですね。
今後の進化にも期待です。