講演概要
Google Cloud では Cloud Monitoring の中でサービス監視という機能があります。これを用いると、SLO の監視が容易に可能になるだけではなく、それを元にしたアラート設計までシームレスに設定できます。本セッションでは、なぜ SLO が重要なのかを簡単に紹介した後に、サービス監視による SLO の監視とそれに基づくアラートの設定を、デモを交えて紹介します。
セッション レベル:中級
取り上げる主な Google Cloud 製品 / サービス
App Engine
Cloud Functions
Cloud Monitoring
Cloud Run
Google Kubernetes Engine (GKE)
所感
改めてSLI/SLOについてわかりやすい説明をしてくれたので整理がつきました。
まずこれらをしっかり定義することも大切だけれど、それをちゃんと継続的に運用することが大切。
開発チームとしてもエラーバジェットを意識することで今ここで新しいことをしてもいいのか、という目安になるというのはとても役に立つ情報だった。
セッションメモ
Cloud Monitoringのお話
SRE
本番システムを信頼性高く開発運用するためのプラクティスと心構え
信頼性指標の計測
抽象的な概念なので計測が難しい
これを定量的に測るにはどうするか?
→ 求められる機能を定められた条件の下で定められた期間にわたり、障害を起こすことなく実行する確率
SLI
信頼性に関する指標
SLO
信頼性に関する目標値
元データ
リクエスト・レスポンス(可用性、レイテンシー、品質)
データ処理(カバレッジ、正確性、鮮度、スループット)
ストレージ(スループット、レイテンシー)
SLI
(良いイベント / 有効なイベント) * 100%
SLO
SLIが(計測期間)の間に(目標値)となることを目標値とする
エラーバジェット(許容できるエラーの数)
SLOが決まると許容できるエラー数がわかるのでその許容内であればチャンレンジができる
バーンレートアラート
エラーバジェットの消費速度=どれだけ早く問題が顕在化するか、どれくらいのスピード感でエラーに対応をすればいいかがわかる
これらの仕組みを継続的に計測・モニタリングするのはとても大変
→ そこでサービスモニタリングの話
デモ
マイクロサービスをサービスモニタリングする