自分の理解を深めるためにまとめてみました。3章の続きです。
4章 SLO
用語
- SLI:指標。例:リクエストのレイテンシ、エラー率、システムスループット、可用性。
- SLO:目標。
- SLA:アグリーメント。契約に関する話なのでSLAの取り決めのSREが直接関わることはない。ただSLO違反のSLAにならないようにSREがチェックしたほうがいい。
SLI
例
- サーバーシステム:可用性、レイテンシ、スループット
- ストレージシステム:レイテンシ、可用性、耐久性
- ビッグデータシステム:スループット、レイテンシ
全てのシステムで正確性は重要。
収集
サーバサイドでやるのが通常だが、クライアントサイドでやらないといけにあケースもある。
集計
平均値を取ってしまうと重要な細部をぼかしてしまう可能性があるため、分布を取る方がよい。パーセンタイルをみてみるのもよい。
SLO
ターゲットの選択
- 現在のパフォーマンスに基づいてターゲットを選択してはならない
- シンプルさを保つ
- 「絶対」は避ける
- SLOは最小限にとどめる
- 最初から完璧でなくてもよい
期待の設定
- 安全マージンを確保する:対外的なSLOと内部的なSLOの間にマージンを置くことで、メンテナンスのためのバッファが確保できる。
- 過剰達成を避ける:意図的にメンテンナンスを設けることもあり。
(5章に続く)