【セミナーレポ】Google＆Datadogさん共催のオブザバセミナーに参加してきました

Posted at 2022-10-25

Google Cloud Japanさん＆Datadog Japanさん共催の 「マルチクラウド環境とオブザーバビリティ」 というオフラインセミナーに参加してきました。

内容をざっくりシェアします。聴きながらの走り書きベースなので超雑ですみません！

※プライベートセミナーのため一般公開されているページ等はありませんが、私は会社経由でご案内をいただき同僚と参加。他のユーザー企業さんも複数いらっしゃいました。
レポ記事公開についてはご承諾をいただいています。（ありがとうございます！）

セミナー内容の紹介

私の場合、実務でゴリゴリ使っているのはDatadogの方だけなのですが、GoogleさんからSREのお話が直接聞けるということで思わず申し込みました。

Datadogの主なユースケース

GCPでDatadogを使うメリット

事例

※DatadogでいうAIOpsのイメージとして、私はWatchdogを思い浮かべながら話を聞いていました。他にもあるかも知れません。

セキュリティ：最近一番アップデートが多い。PCIはじめコンプラ準拠とか

コラボレーション：ダッシュボード、インシデント管理など

オブザーバビリティパイプライン：色んな製品経由のテレメトリーを一元集約

小噺として、Dashでは他社の大規模イベントと異なりCEOのキーノートを3分ほどで終わらせてしまい、さっさと各チームからの新機能紹介に時間を割くというお話があり興味深かったです。ビジョンよりも技術を重視する同社の姿勢が表れているとのこと。

あの有名なGoogle 山口さんから直々にSREのお話を聞ける素敵なセッションでした。
ただし、今日たまたま体調が悪かったとのことでリモート講演でした。それでもありがたい。

SREとは

システムの信頼性を維持するための方法論。全組織で取り組む必要がある
原則
- いかなるシステムでも最も重要な「機能」は信頼性 （100%ではなくバランスよくユーザーのニーズに応える）
- 信頼性を決めるのは監視システムではなく「ユーザー」である
運用保守コストは構築よりも長期なのでバカにならない
- 開発＆運用チームの目的が合致していないのが問題（アジリティ vs 安全性）
- 共通の基準を「ユーザーの信頼性」にして全部署のインセンティブを揃えるべし
- SLOを用いる
  - SLO > SLA（SLO未達の場合の規約）
  - 100%を目指さない分、投資に回す

オブザーバビリティとは

SREを実践するときの流れ

SREというキーワードとは長いこと付き合っていたつもりでしたが、山口さんから直々に「SREとは」「オブザバとは」という話を聞けたことで、改めて論点がぼやけがちな「SRE」について腹落ちするメインストリームな考え方をおさらいすることが出来ました。

また、渋谷ストリームのGoogleさんオフィスもめちゃ綺麗でした。ドロイドくんと写真撮影してきました✌️