はじめに
こんにちは、Datadog Japan で Sales Engineer をしている AoTo です。
みなさん、Datadog の公式年次イベントである DASH はご存知でしょうか?DASH は「Observe・Secure・Act」というキーワード、Datadog の本社が置かれるニューヨークで開催されるイベントです。2024年は6月25-26日に開催され、2025年は6月10-11日のでの開催が決定しています。
ロードマップや最新機能を発表する他に、各テーマに沿ったワークショップや事例を聞けるブレイクアウトセッション、パートナーソリューションを知れるエキスポや日本人向けの Japan Track など様々なコンテンツがあります🐶
今回は、「DASH 2024」で紹介された新機能をこれまでの Datadog の機能と比較しながら解説します。Datadog 内部の視点から、公式ドキュメントには記載のない、以前までの機能と変化も解説するため Datadog/Observability 好きの方は是非最後までご覧ください!
こちらの内容は Act のキーワードに沿った新機能に焦点を当てた後編となります。Obseve・Secure は以下の記事をご覧ください。
2024年12月 時点での情報を元に記載しています。
最新の情報は Datadog の公式ドキュメントをご参照ください。
On-Call
概要
Datadog On-Call はモニター・インシデント・セキュリティシグナルの通知に、オンコール対応チームのスケジューリングと共に SMS・電話を選択できる新しい機能です。発表時から現在まで Preview(Private beta) で提供されています。
On-Call は Datadog Team と統合された機能であり、通知先として SMS・電話を選択できるだけでなく、オンコール体制を設定する処理ルール・エスカレーションポリシー・スケジュール を設定することができます。
On-Call はこれらの通知元となるモニター・インシデント・セキュリティシグナルなどをページとして定め、チームが受け取り、エスカレーションポリシーに基づいて選択されたスケジュールに当てはまる通知先へ通知されます。
オンコールチームは Datadog Teams を適用できますが、*PagerDuty や Opsgenie のチームをそのままインポートすることもできます。これにより、Datadog のプラットフォーム内で監視情報の集約・検知・通知などの一連の監視業務を集約できます。
以前までの機能
On-Call の提供前は、インテグレーションで設定した *PagerDuty や Opsgenie を通じたオンコールでの通知が可能でした。しかし、これらのプラットフォームを利用したことがないユーザーにとっては、Datadog の利用と同時にオンコール・インシデント管理のツールを併せて検討することは大変でした。
近年 Datadog は Datadog Incident Management をはじめとする IT サービス管理(IT Service Management, ITSM) の領域のサービスを拡充してきました。SRE にとっても緊急度の高い通知を扱うオンコール業務は欠かせないものであり1、Datadog で監視とともにこれらを遂行できる機能があることが求められていました。
Kubernetes Autoscaling
概要
Datadog Kubernetes Autoscaling は Datadog から実際のワークロードとその推奨事項を確認した上で、直接 Kubernetes のスケーリングを実行・自動化を設定できる機能です。発表時から現在まで Preview(Private beta) で、Datadog Container Monitoring を利用しているユーザーにのみ提供されています。
Kubernetes Autoscaling を利用することにより、事前にワークロードのスケーリング戦略を十分に適用できていない場合でも、Datadog の監視情報をもとにワークロードの負荷とリソース消費のバランスを確認し、Datadog からの推奨事項を確認した上で追加の実装を必要とせず一回限りのスケーリングの実施からオートスケーリングの設定までを完了できます。
以前までの機能
Kubernetes のオートスケーリングとしては、Horizontal Pod Autoscaler, Vertical Pod Autoscaler, Karpenter, Cluster Autoscaler が挙げられますが、これらはスケーリング戦略を厳密に定めた上で実際のワークロードを確認し都度調整を行っていく必要がありました。
Kubernetes Autoscaling の提供前も、Cluster Agent のカスタムメトリクスと外部メトリクスによるオートスケーリングが Kuberenetes v1.2 で導入された HPA で実現できました。しかし以前として設定時の考慮事項が多く、スケーリング戦略として事前にどのメトリクスをもとにオートスケールを行うかなどを定める必要がありました。
以下の発表やブログでも詳しく利用用途や設定方法が解説されているため、ぜひご参照ください。
Change Tracking
概要
Change Tracking はサービスとその依存関係に関連する変更を Datadog のモニター・サービス・ダッシュボードに表示して、問題の発生時にその原因となる変更を特定するための洞察を得られる機能です。Change Tracking は各画面で段階的に有効化されるプラットフォーム側の機能ですが、発表時から段階的に有効化されています。
Change Tracking の機能を確認できる画面として、サービス詳細画面・モニターステータス画面・ダッシュボードの変更追跡があり、どれも全てのユーザーが利用できます。
以前までの機能
Change Tracking 提供前は、主に Datadog APM の Deployment Tracking や Datadog Container Monitoring の Orchestrator(Kubernetes) View の 情報パネルではそれぞれでデプロイや変更の影響を確認できました。
Change Tracking の類似機能として Datadog Resouce Catalog で提供される Recent Change Tab 機能は、インフラストラクチャーの変更を専用のタブで表示する機能です。この機能は現時点で Preview で提供されています。
Bits AI Autonomous Investigator
概要
Bits AI Autonomous Investigator は Bits AI を利用して人間による指示なく複雑な運用タスクをこなす自律的なエージェントを設定できる機能です。発表から現在まで、この機能は Bits AI と同様に Preview(Private beta) として提供されています。
本機能により、Bits AI をモニターアラートのトリガー先に選択すると、Bits AI はシステムに関する包括的な知識・文書化されたトラブルシューティング手順・ベストプラクティスを活用して、潜在的な根本原因を特定し始めます。具体的には、アラートの内容に関連する Datadog へ集約された監視情報をもとに、Datadog Notebook に調査の内容を記録し、通知先の Slack チャンネルに通知、Datadog Case Management でケースを作成します。
これらの一連の調査・記録・通知は全て自律的に行われ、会話によって新たな調査を行える操作性(Steerability)、Slack のスレッドから関連あるのみ内容を Notebook に記録する説明可能性(Explainability)、推奨事項を伝えすステムに変更を加えない人間参加型(Human-in-the-loop) の基本原則に沿って実行されます。
以前までの機能
Bits AI は以前から Preview(Private beta) での提供ですが、Incident Management 内では Bits AI は GA(一般提供) となっています。つまり、Slack インテグレーションをしているワークスペースでは @Datadog
で Bits AI を呼び出し、起票されたインシデントの内容の確認と一般的な Datadog の質問を行えます。
この Bits AI on Incident Management の機能を利用して、Bits AI により自動的に起票されたインシデントを自動的に作成された Slack チャンネルを通して確認しできます。さらに、Bits AI によるインシデントに関連する性質・影響・要因・対応などの要約を確認し、解決に向けて Zoom や CoScreen をボタンからすぐに起動できます。
さらに、トラブルシューティングの際にはインシデント情報をいつでも @Datadog
で要約したり、類似のインシデントの確認ができます。インシデントの解決後はインシデントの事後分析(ポストモーテム)のドラフト作成を支援し、ユーザーが重要な分析に集中できるようになります。
おわりに
本来は6月に公開を予定していた本記事ですが、執筆に時間を取れず公開が12月に遅れてしまいました。
Datadog は製品開発に積極的に投資しており、新機能の追加だけではなくプロダクト間の連携や UI/UX・実装方法の改善などさまざまな変更が日々行われています。Datadog の年次イベントである DASH では、Datadog が自信を持ってユーザーに提供できる目玉機能の発表が行われ、業界にも大きなインパクトをもたらします。
皆様も是非来年 DASH 2025 に参加いただき、オブザーバビリティの最前線を体感してみてください🐶
-
『Site Reliability Engineering』(いわゆる SRE 本)でも、信頼性の階層として監視の次にインシデント対応が基本的な要素として重要であることが述べられています。 ↩