1
1

More than 5 years have passed since last update.

SRE本まとめ(6章 分散システムのモニタリング)

Last updated at Posted at 2017-10-01

自分の理解を深めるためにまとめてみました。5章の続きです。

6章 分散システムのモニタリング

モニタリングの必要性

  • 長期的なトレンドの分析
  • 時間や実験グループ間での比較
  • アラート
  • アドホックな振り返り分析の進行

4大シグナル

  • レイテンシ
  • トラフィック
  • エラー
  • サチュレーション

Bigtableでの事例

過剰なアラートが発生していたため、問題切り分けのためにかなりの時間を消費していた。アラートの閾値を下げることでアラートを減らし、根本的な解決のための時間を確保し、結果として早期に安定稼働させることができた。

7章に続く)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1