More than 1 year has passed since last update.

【Google Cloud Next Tokyo ’23レポート】DAY1 SLO 監視でサービス品質を一段上げる！ Google Cloud Monitoring 活用法

Posted at 2023-11-15

講演概要

Google Cloud では Cloud Monitoring の中でサービス監視という機能があります。これを用いると、SLO の監視が容易に可能になるだけではなく、それを元にしたアラート設計までシームレスに設定できます。本セッションでは、なぜ SLO が重要なのかを簡単に紹介した後に、サービス監視による SLO の監視とそれに基づくアラートの設定を、デモを交えて紹介します。

セッションレベル：中級
取り上げる主な Google Cloud 製品 / サービス
App Engine
Cloud Functions
Cloud Monitoring
Cloud Run
Google Kubernetes Engine (GKE)

所感

改めてSLI/SLOについてわかりやすい説明をしてくれたので整理がつきました。
まずこれらをしっかり定義することも大切だけれど、それをちゃんと継続的に運用することが大切。
開発チームとしてもエラーバジェットを意識することで今ここで新しいことをしてもいいのか、という目安になるというのはとても役に立つ情報だった。

セッションメモ

Cloud Monitoringのお話

SRE
本番システムを信頼性高く開発運用するためのプラクティスと心構え

信頼性指標の計測
抽象的な概念なので計測が難しい
これを定量的に測るにはどうするか？
→ 求められる機能を定められた条件の下で定められた期間にわたり、障害を起こすことなく実行する確率

SLI
信頼性に関する指標

SLO
信頼性に関する目標値

元データ
リクエスト・レスポンス（可用性、レイテンシー、品質）
データ処理（カバレッジ、正確性、鮮度、スループット）
ストレージ（スループット、レイテンシー）

SLI
(良いイベント / 有効なイベント) * 100%

SLO
SLIが（計測期間）の間に（目標値）となることを目標値とする

エラーバジェット（許容できるエラーの数）
SLOが決まると許容できるエラー数がわかるのでその許容内であればチャンレンジができる

バーンレートアラート
エラーバジェットの消費速度＝どれだけ早く問題が顕在化するか、どれくらいのスピード感でエラーに対応をすればいいかがわかる

これらの仕組みを継続的に計測・モニタリングするのはとても大変
→ そこでサービスモニタリングの話

デモ
マイクロサービスをサービスモニタリングする

資料リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

【Google Cloud Next Tokyo ’23レポート】DAY1 SLO 監視でサービス品質を 一段上げる！ Google Cloud Monitoring 活用法

講演概要

所感

セッションメモ

資料リンク

【Google Cloud Next Tokyo ’23レポート】DAY1 SLO 監視でサービス品質を一段上げる！ Google Cloud Monitoring 活用法