概要
Datadog日本法人の設立にあわせて開催された第一回目のDatadog Summit Tokyoの当日行われたこととその内容について超主観的に簡単にまとめました
※ スライドが公開されていないため、また会場内で撮影が禁止だったため文字だけの説明になります。
1. 開会の言葉(Datadog, Ilan Rabinovitch と Andy Clark)
Datadogがどういったサービスなのか、各機能の簡単な説明と、Datadogのサービスの成長を話していました。日本でのクラウドへの移行がここ最近盛り上がっているのに伴い、日本に法人を設立し、サポートも充実させていくというようなことを
最初の受付の時に翻訳用トランシーバーをもらい忘れて英語できていたので細かいことまで終えませんでした。。
2. Sony Interactive Entertainmentのモニタリングジャーニー
概要
Sonyは開発部と運用部が分かれていて、今回は運用部の人が、複雑だった監視システムをDatadogで一本化して運用を効率化したお話でした。
課題点
1. 監視が複雑すぎる
監視用agentが4つ、監視ツールが4つ, etc
複雑化した理由
システムの拡大に伴い、監視システムもそれに対応するのに伴い複雑化していった
・クラウド移行に伴い、auto scaling対応必要
・海外チームと連携でObservityあげる
・各監視を自動化
2. メンテナンスが大変
・監視システムの内部で利用しているSDKを自分たちで手動でアップデートしなきゃいけない
・監視システムが古いOSSのためパフォーマンスが悪い
・監視システムが複数あり、どこをみればいいのかわかりにくい
3. 日本以外に海外に2拠点チームがあり、それぞれで別の監視ダッシュボードをみていた
障害発生時に、みているダッシュボードが違うため、原因特定のためのコミュニケーションがとても非効率だった
解決策
Datadogで監視を1つに集約化
これにより脱自前化でメンテナンスが楽になったり、新人が入った時も教えるコストが減った
ダッシュボードを統一化することで拠点間のやりとりを効率化
Datadog導入でよかったこと
- APIのどのロジックで時間がかかっているのかを可視化できるようになった
- パフォーマンステスト時にもDatadogを活用することで、ボトルネックの解決に役立てるようになった(数値による解決)
- サービス開発以外にかけてたコストを削減
- コミュニケーションの効率化
今後の展望
- ちゃんと数字をとって、どういうところを改善していけばいいのか、データサイエンティフィックに改善していきたい
- Watchdogなど、それまでの監視システムになかった機能もDatadogを使って追加でやっていきたい
3. PLAID:KARTE向けクラウドを支えるスケールするアナリティクス
内容
- KARETEの特徴
- 監視のポイント
- 今後やりたいこと
KARETEの特徴
マルチテナント
そのため負荷の変化が大きい。一日のうち最小と最大で10倍差。
またセール等で負荷が変化する
低レイテンシー、高負荷な性能要件
最大65,000/s
SRE 3人
マルチクラウド
GCP, AWS,TimeScale,Redise labo
1つのベンダで障害が起こった時に別のベンダに切り替えることで対応。
またそれぞれのベンダの強みを良いとこどりする。コストも30%ほどカットできた
参考
https://tech.plaid.co.jp/devsumi-2018/
監視のポイント
Datadogに全てを集約
障害対応じDatadogを見ればすぐに状況を把握できるように
ex)Integrations,log, APM, Synthetic
カスタムメトリクスの積極活用
32M/monほども利用。関数よりもより細かい粒度でlatencyを計測。
カスタムメトリクスを利用してlatencyを計測しながら新機能開発tagでユーザ識別IDを送る
特定のユーザー起因のエラーなのか、システム全体で起こっているのかの原因切り分けをやっている
Layor別のダッシュボード
Layer1 サービスの生死
Layer2重要なコンポーネント、アプリケーションのメトリクス、
Layer3 各サーバ群の細かいメトリクス
サーバ群のCPU使用率
メモリ使用率
各関数のレイテンシーなど
ex)DBとやりとりしているサーバのレイテンシが遅くなってるなどを特定
今後やりたいこと
全てのエンジニアが障害の一時対応できるようにする
↓
監視/障害対応ののフローの整理
4. JCB:レガシーとクラウドネイティブ技術をつなぐハイブリッドクラウドシステム
特徴
金融系のため厳格なコンプライアンスの遵守が必要
ex)PCI TSPを満たすには、クラウドだけでは満たせない
↓
ハイブリッドクラウド
Datadogを導入した感想
- ダッシュボードが見やすくいい
- API連携が豊富
- インタグレーションが豊富
AWS,GCPだけ出なくIBMなどにも対応していて良い
金融系のため、IBMを利用
今後の展望
- オンプレにもDatadogを導入したい
- STGにも入れて、パフォーマンステストの際に活用して行きたい
5. Datadog Technology Update
コンテナ化、マイクロサービスの流れをうけて。
APMやログ監視以外にも
↓
ネットワークの監視もしたい!
Network Peformance Monitoringの紹介
6. Datadog Community Managerの話
概要
コミュニティ支援していきたい
1.ドキュメンテーション
ドキュメントの充実化。日本語対応も。
https://docs.datadoghq.com
2. トレーニングプログラムの提供
100%無料
問題解決についてのプログラムも提供
ex)kubernetesのモニタリング、活用方法など、SLOの話
https://learn.datadoghq.com
3.アドボカシー
kubernetes、kafkaなど技術的に難しいものの支援
datdog youtube.dom
https://www.youtube.com/channel/UCPO2QgTCReBAThZca6MB9jg
4. OSS化
ex)
https://github.com/ngi644/datadog_nvml
scaladog
https://hub.docker.com/u/yuyat/
https://blog.yuyat.jp/post/circle-dd-bench/
7. ANA Systems:デジタルカスタマーエクスペリエンスプラットフォームの構築
概要
ANAのIT部門の業務内容の紹介
ex)
従業員向けロボットスーツ
飛行機を押し出すロボットのリモコン操作
自動手荷物機
新たな搭乗モデルの研究(顔認証)
ANA デジタルプラットフォームの整備
CE(Customer Experience)
旅の企画から振り返りまでの13シーンのサポート
Datadog活用例
これから導入したい!とのこと。
これが終わりで活用例の話は一切ありませんでした。
8. Sansan
概要
- 会社のビジョンの説明
- サービスの説明
- データ戦略
- Datadogの活用
- 今後の展望
会社のビジョン〜データ戦略はDatadogとは関係なかったので省略。
Datadogの活用
Datadogはmetrics中心
↓
ユーザーに対してどういう価値が届いているのかという思考でアプローチできる
Datadogを導入することで、インフラエンジニアではなく、アプリケーションエンジニアやRDのエンジニアが自分たちでどんなメトリクスをとっていけば良いのか、ダッシュボードを作ってモニタリングできるようになった
今後の展望
インフラレイヤの抽象化
透過的なサービス監視
9. クロージングセッション
1.Ilan Rabinovitch
メモ走り書き
- APMやログ監視などBackend目線の監視に加え、ユーザー体験の視点からも必要
何を測定する
ex)これが停止するとお客様が購入できなくなる,ログインできない、 etc,,,
ユーザー体験からの監視が重要であることの事例
- レスポンスタイムが+1s増加することでアクセスが10%Downする(By BBC)
- エンドユーザにとって、レスポンスタイムのうちフロントエンドが80%を占めている
参考
https://www.datadoghq.com/blog/integrate-akamai-mpulse-real-user-monitoring-with-datadog/
対応策
- Synthetics
- RealUser Monitoring
2.Andy Clark
日本法人設立の話。
まとめ
SonyさんのDatadog導入までの話は経緯と導入によるメリットが具体例と共に紹介されていてとても理解しやすかったです。
全体的に、Datadog社の人以外の登壇で、自社サービスの話が発表時間の多くを占める登壇者が多く、もっと技術的な内容や詳細な適用例の話があったらよかったなぁと思いました。
懇親会ではDatadogのAndy Clarkさんと直接お話しできとても陽気で面白い方でした。
Datadogのエンジニアの方ともお話したところ、基本的にdocumentやblog等は充実しているので、それを参考に、わからなければチケットでサポートに問い合わせてくださいとのことでした。