More than 3 years have passed since last update.

システムのスピードと品質を両立する為のエラーバジェットとSLI/SLOという考え方

Last updated at 2021-12-30Posted at 2020-01-07

システムの可用性と機能のイテレーションスピードや市場投入までの時間はトレードオフ
(GoogleのGCPは機能のイテレーションスピードや市場投入までの時間を重要視している)

機能のイテレーションスピードを最大化した上で、システム可用性を担保する為にどうすれば良いか？

その最適解の1つがエラーバジェットという考え方

エラーバジェットとは？

エラー予算
損失可能なシステムの信頼性
許容できる可用性低下の妥協点とも言えます。

開発チームはこのエラーバジェットが基準値を下回ったタイミングでイテレーションは停止して以下を行います。

システム信頼性はどう計測し、基準値はどうすれば良いか？
これがSLI/SLOです。

システムの信頼性/安定稼働というものをどう計測するかの指標です。
例えば、リクエスト成功率、レイテンシなどを選定します。

シンプルに以下の様な感覚です。

SLIの数値をモニタリングして、何をもってシステムの信頼性が高いと言えるか、安定稼働しているといえるかの基準値がSLOです。

この結果、リリースの頻度が減ったり、リリースごとの変更点が減少してエラーバジェットへの影響が小さくなったりすることもあります。
しかし、一時的にリリースのスピードを落とす事は、将来的に元のスピードで安全にリリースできるようにするためです。