オンコール対応から解放される日は来るのか？ Datadog Summit Tokyo 2025参加レポート

Last updated at 2025-10-20Posted at 2025-10-20

Datadog Summit Tokyo 2025参加レポート〜AI時代のオブザーバビリティとセキュリティの最前線〜

はじめに

こんにちは！新卒2年目SREの🦊です。

2025年10月16日（木）に赤坂インターシティコンファレンスで開催されたDatadog Summit Tokyo 2025に参加しました。この記事では、最新のオブザーバビリティとDatadogを活用したシステムのパフォーマンス、セキュリティ、および信頼性を向上させるためのノウハウを最前線のエンジニアから学んだ内容と、印象に残ったセッションについてご紹介します。

Datadog Summit Tokyoとは

Datadog Summit TokyoはDatadogが主催するオブザーバビリティとセキュリティに関する国内最大級のカンファレンスです。このイベントでは、Datadogプラットフォームの最新機能やアップデート、顧客企業による実践的な活用事例が発表されます。

今年のテーマは「AI主導の新たなフェーズ」で、生成AIやLLMのオブザーバビリティ、AI支援による運用自動化など、AI時代の監視・運用のあり方が多く取り上げられました。

現地の様子

会場の雰囲気

会場には多くのエンジニアやSRE担当者が集まり、熱気に包まれていました。

昼食

会場では昼食も提供されました。

ネットワーキング

イベント終了後にはネットワーキングセッションが開催され、他の参加者やDatadogのエンジニアと交流する機会がありました。リラックスした雰囲気の中で、Datadogの活用事例や運用上の課題について有意義な情報交換ができました。
　

セッションレポート

基調講演：AI時代におけるオブザーバビリティとセキュリティの再定義

基調講演では、Datadog CPOのヤンビン・リー氏らからDatadogプラットフォームの進化とAI時代における新しいアプローチが紹介されました。

Datadogインテグレーションの拡大

Datadogは現在1000以上のインテグレーションを提供しており、様々なクラウドサービスやツールと連携できることが強調されました。これにより、単なる「見える化」だけでなく、検知、探知、リカバリーまでを一貫して実現できます。

Datadog On-Call

新たに発表されたDatadog On-Callは、インシデント発生時のエスカレーションフローを効率化する機能です。オブザーバビリティパイプラインと組み合わせることで、問題が発生した際に適切な担当チームへ自動的にエスカレーションできます。また、インシデント発生時に一次調査を実施する機能により、夜間対応などのオンコール負荷を軽減できます。

Bits AI - AIエージェントによる自律的な運用

今回最も印象的だったのがBits AIシリーズの発表です。

Bits AI SRE

AIエンジニアが24時間対応する仕組みです。深夜にアラートが発生した際も、AIが自律的に調査を行い一次対応を実施します。

具体的な機能：

モニター設定に基づき、インシデント発生時にAPMなどを網羅的にリサーチ
原因を特定（例：レイテンシー悪化→リクエスト滞留→エラー増加）
モニター詳細に設定されているリンクやNotebookなどのコンテキストを参照
APMの分散トレーシングを活用し、依存サービスまで自動調査

並行して複数の仮説を立て、調査を進める点が画期的です。

参考：Bits AI SRE ドキュメント

Bits AI Dev Agent

エラーが検出された際、AIがコードを修正し、GitHub Pipeline経由でリリースまで実行可能です。これにより、エラー特定から修正、本番デプロイまでのサイクルを大幅に短縮できます。

参考：Bits AI Dev Agent ドキュメント

Bits AI Security Analyst

セキュリティインシデントの分析を自動化し、脅威の検知から対応までをサポートします。

参考：Bits AI Security Analyst ブログ

脆弱性の網羅的な調査は通常、専門家への依頼が必要ですが、この機能により自動化が期待できます。

MCPサーバー

MCP（Model Context Protocol）サーバーの活用により、運用データを用いて本番環境の問題をローカルで再現可能になります。これは開発者にとって強力なデバッグツールです。

特に、高トラフィックな本番環境でのみ発生する問題など、再現が困難な事象に対して、Kubernetes MCPサーバーやClaude Codeなどと組み合わせることで効果的なデバッグが可能になります。

LLM Observability・AI Observability

生成AIやLLMを活用したプロダクトの監視に特化した機能として、以下が紹介されました：

GPUモデルのコストや評価の可視化
モデルのパフォーマンス改善
モデルバリエーション間の実験結果比較

Data Observability

データパイプラインの監視として、長時間実行クエリの検出やコスト最適化が可能になります。

基調講演で語られたデータこそが企業の未来を切り拓くというメッセージが印象的でした。

生成AI SaaSプロダクトにおけるOpenTelemetryを活用したObservability向上の取り組み

このセッションでは、顧客企業がどのようにオブザーバビリティを実現しているか、実践的な事例が共有されました。

プロダクトの特徴

通常のRAGシステムは問い合わせに対して即座に回答を生成しますが、このプロダクトでは以下のフローを採用しています：

まず検索結果を提示
カスタマーサクセス（CS）が最適な検索結果を選択
選択された結果を元に回答を生成

この仕組みにより、学習データ（教師あり学習）を蓄積できる点が興味深いアプローチです。

オブザーバビリティ戦略

長期保存のコスト削減のため、Datadog + Prometheus/Loki/Tempoを併用する構成を採用しています。

Datadogへの保存はコストが高いため
長期保存が必要なログやメトリクスは自前でストレージ管理

当初はコスト観点でDatadogの導入を遅らせ、OSSを使用していましたが、運用の限界から最終的にDatadogを導入した経緯が語られました。

OTEL Collectorの活用

OTEL（OpenTelemetry） Collectorを活用することで、データの収集と転送を柔軟に制御できます。

Datadog LLM Observabilityで切り拓く、LLMプロトタイプ開発の可視化と加速

日本経済新聞社の方が登壇され、LLMプロトタイプ開発におけるDatadog LLM Observabilityの活用事例が紹介されました。

日本経済新聞社のデータベースサービス

日経のデータベース活用でコンプライアンスチェックというサービスを提供しており、取引先のリスク調査に新聞記事データベースを活用しています。

LLMとの相性が良く、記事データベースを活用した各種サービスのプロトタイピングを進めているとのことでした。

LLM Observabilityの効果

LLMプロトタイプを作成する際に、Datadog LLM Observabilityを使用することで以下が実現できます：

Input/Outputの確認
レイテンシーの可視化
プロトタイプ開発の高速化

LLM APIは不安定なことが多いため、適切に監視できることが重要です。

ブレイクアウトセッション

LLMプロダクトの信頼性を上げるには？LLM Observabilityによる、対話型音声AIアプリケーションの安定運用

このブレイクアウトセッションでは、LLMを活用したビジネスにおいて、LLmをプロダクトに組み込む際の障壁をどのように乗り越えたか紹介されました。

E2Eテストの実現

アイブリー社の事例として、電話サービス（LLM）のE2Eテストの実装方法が紹介されました：

YAMLでテストを定義
Python経由で電話をかける
Text-to-Voiceで音声に変換してテスト実行
CIでテストを自動実行
Datadog LLM Observabilityに送信してデバッグ

電話の音声認識サービスでもE2Eテストが可能という点が興味深い事例でした。

プロダクトデモ

会場では、Product DemoとしてDatadogのエンジニアによる実際の機能デモを見ることができました。その中で特に印象的だった機能を紹介します。

Bits AI SRE

Bits AI SREでは、インシデント発生時（アラート発火時）にAPMやNotebookなどのコンテキスト情報を網羅的に調査し、エラー原因を特定します。実際のデモでは、Datadog上のChatからエラーの詳細や考えられる原因を特定している様子が紹介されました。

RUM（Real User Monitoring）とSession Replayの活用

フロントエンド向けの機能として、**RUM（Real User Monitoring）**が紹介されました。

弊社では、バックエンド向けの機能は有効化されていますが、フロントエンド向けにはまだ活用されていません。バックエンドのマイクロサービスでエラーが発生した際に、フロントエンド画面のどこでエラーが表示されるのかを一気通貫で確認できるメリットは大きいと考えます。

Session Replay

Session Replay機能では、ユーザーの画面遷移を動画で確認できます。

マーケティングチームでも以下のような活用が期待できます：

ユーザーが画面のどこをよくクリックしているか確認
UI/UXの改善に活用
コンバージョン率の最適化

また、同じSaaSをベースに会話することで、ドメイン知識の共通認識を整えるなど、副次的な効果も期待できます。

参考記事：

ワークショップ：Webアプリケーションのハッキング

実際にデモアプリケーションに対してJavaScriptインジェクションなどを実行し、Datadog Application Security Management（ASM）を活用して、悪意のあるリクエストがどのユーザーから実行されたのかを特定する体験ができました。

近年セキュリティ対策の重要性が高まっている中で、この機能を活用することで攻撃を早期に発見し、セキュリティインシデント発生時の早期特定から解決につなげることができます。

その他の気づき・学び

Datadogで統一することのメリットとデメリット

Datadogで監視基盤を統一すると、開発効率や調査効率が飛躍的に向上します。デプロイフローもDatadog経由にすることで、バグ調査からリリースまでをシームレスに実行できる可能性があります。

一方で、依存しすぎると抜け出せなくなるリスクやコストの問題があります。代替として考えられるのはNew Relicなどですが、エコシステムの規模ではDatadogに大きなアドバンテージがあります。

オブザーバビリティパイプラインの重要性

マイクロサービスアーキテクチャにおいて、オブザーバビリティ基盤を適切に構築することで以下が実現できます：

問題発生時の管轄チームへのエスカレーション
依存環境の網羅的な可視化
インシデント対応の自動化

そのためには、各サービスに適切なアラート設計やドメイン分割が重要です。

学習リソース

Datadogの学習プラットフォームDatadog Learning Centerでは、無料でDatadogの使い方を学ぶことができます。

Swag

会場ではSwagも配布されました！可愛いですね！

おわりに

Datadog Summit Tokyo 2025では、AI時代におけるオブザーバビリティとセキュリティの最新トレンドを体感することができました。特にBits AIシリーズによる自律的な運用や、LLM Observabilityによるプロトタイピングの加速など、従来の監視の枠を超えた新しいアプローチが印象的でした。

クラウドネイティブなアーキテクチャが複雑化する中で、Datadogのような統合オブザーバビリティプラットフォームの重要性はますます高まっています。一方で、コストや依存リスクも考慮しながら、自社に最適な監視戦略を策定していく必要があります。

今回学んだ内容を活かし、ZOZOのSREとして、より効率的で信頼性の高いシステム運用を実現していきたいと思います。

最後に、素晴らしいカンファレンスを開催していただいたDatadog社、登壇者の皆様、そして会場で交流させていただいた皆様に感謝いたします。

最後まで読んでいただきありがとうございます！

少しでも参考になったり、datadogすごいとなったらいいね👍 押してもらえると励みになります〜！

関連リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

オンコール対応から解放される日は来るのか？ Datadog Summit Tokyo 2025参加レポート

Datadog Summit Tokyo 2025参加レポート 〜AI時代のオブザーバビリティとセキュリティの最前線〜

はじめに

目次

Datadog Summit Tokyoとは

現地の様子

会場の雰囲気

昼食

ネットワーキング

セッションレポート

基調講演：AI時代におけるオブザーバビリティとセキュリティの再定義

Datadogインテグレーションの拡大

Datadog On-Call

Bits AI - AIエージェントによる自律的な運用

Bits AI SRE

Bits AI Dev Agent

Bits AI Security Analyst

MCPサーバー

LLM Observability・AI Observability

Data Observability

生成AI SaaSプロダクトにおけるOpenTelemetryを活用したObservability向上の取り組み

プロダクトの特徴

オブザーバビリティ戦略

OTEL Collectorの活用

Datadog LLM Observabilityで切り拓く、LLMプロトタイプ開発の可視化と加速

日本経済新聞社のデータベースサービス

LLM Observabilityの効果

ブレイクアウトセッション

LLMプロダクトの信頼性を上げるには？LLM Observabilityによる、対話型音声AIアプリケーションの安定運用

E2Eテストの実現

プロダクトデモ

Bits AI SRE

RUM（Real User Monitoring）とSession Replayの活用

Session Replay

ワークショップ：Webアプリケーションのハッキング

その他の気づき・学び

Datadogで統一することのメリットとデメリット

オブザーバビリティパイプラインの重要性

学習リソース

Swag

おわりに

少しでも参考になったり、datadogすごいとなったら いいね👍 押してもらえると励みになります〜！

Datadog Summit Tokyo 2025参加レポート〜AI時代のオブザーバビリティとセキュリティの最前線〜

少しでも参考になったり、datadogすごいとなったらいいね👍 押してもらえると励みになります〜！