0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【Google Cloud Next Tokyo ’23レポート】DAY1 SLO 監視でサービス品質を 一段上げる! Google Cloud Monitoring 活用法

Posted at

講演概要

Google Cloud では Cloud Monitoring の中でサービス監視という機能があります。これを用いると、SLO の監視が容易に可能になるだけではなく、それを元にしたアラート設計までシームレスに設定できます。本セッションでは、なぜ SLO が重要なのかを簡単に紹介した後に、サービス監視による SLO の監視とそれに基づくアラートの設定を、デモを交えて紹介します。

セッション レベル:中級
取り上げる主な Google Cloud 製品 / サービス
App Engine
Cloud Functions
Cloud Monitoring
Cloud Run
Google Kubernetes Engine (GKE)

所感

改めてSLI/SLOについてわかりやすい説明をしてくれたので整理がつきました。
まずこれらをしっかり定義することも大切だけれど、それをちゃんと継続的に運用することが大切。
開発チームとしてもエラーバジェットを意識することで今ここで新しいことをしてもいいのか、という目安になるというのはとても役に立つ情報だった。

セッションメモ

Cloud Monitoringのお話

SRE
本番システムを信頼性高く開発運用するためのプラクティスと心構え

信頼性指標の計測
抽象的な概念なので計測が難しい
これを定量的に測るにはどうするか?
→ 求められる機能を定められた条件の下で定められた期間にわたり、障害を起こすことなく実行する確率

SLI
信頼性に関する指標

SLO
信頼性に関する目標値

元データ
リクエスト・レスポンス(可用性、レイテンシー、品質)
データ処理(カバレッジ、正確性、鮮度、スループット)
ストレージ(スループット、レイテンシー)

SLI
(良いイベント / 有効なイベント) * 100%

SLO
SLIが(計測期間)の間に(目標値)となることを目標値とする

エラーバジェット(許容できるエラーの数)
SLOが決まると許容できるエラー数がわかるのでその許容内であればチャンレンジができる

バーンレートアラート
エラーバジェットの消費速度=どれだけ早く問題が顕在化するか、どれくらいのスピード感でエラーに対応をすればいいかがわかる

これらの仕組みを継続的に計測・モニタリングするのはとても大変
→ そこでサービスモニタリングの話

デモ
マイクロサービスをサービスモニタリングする

資料リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?