LoginSignup
0
0

More than 3 years have passed since last update.

アドベントカレンダー14日目:SREを読んでみた「分散システムのモニタリング」編④

Last updated at Posted at 2020-12-16

前回の内容では、モニタリングシステムがユーザーに伝えるべきこととモニタリングシステムにおいて、重要なシグナルの種類について、学びました。
今回は、今まで学んだ原則のまとめを行います。

原則のまとめ

モニタリングやアラートのルールを作成する際は、以下の質問を自分にしてみると、誤検知やページャーによる燃え尽き症候群を避けることに役立ちます。(ページャーとは、人間が即対応が必要なタスク、ページは人間が即対応が必要なことを示すアラートです。)

  • ルールによって、検出された状況は、そのルールによって検出される状況であり、緊急対応可能か?また、ユーザーに影響を与えることはあるか?
  • そのアラートは、無害なものだとして、対応せずにおけるか?そのような状況が生まれないようにするにはどうすればいいのか?
  • アラートは確実にユーザーに悪影響を与えるものなのか?
  • アラートにアクションを取ることができるか?緊急で対応する必要があるか、明日まで待てるか、安全に自動化できるか、長期的な対応か、短期的な暫定対応か?
  • ページで問題を受ける人が他にいるか?ページが不要となることはないか?

ページに対する基本哲学

  • ページのたびに緊急対応という感覚を持つ。ただし、緊急対応が多すぎると疲弊していう。疲弊はミスを生む。
  • すべてのページは、具体的な対応が可能でなければならない。
  • ロボット的なレスポンスを返せばいいだけのページは、ページとすべきではない。
  • ページは、新たな問題に関することであるべきである。

長期にわたるモニタリング

モニタリングシステムはモニターするシステムの進化に伴って、進化する必要があります。今日起きたエラーは、非常に稀なエラーであったとしても、将来的には頻発するエラーになるかもしれません。そうならないためには、根本原因を見つけるべきです。
根本的な解決ができないなら、対応を自動化すべきです。今日発生している問題に対処するということは、明日システムの改善に当てる時間が無くなることになります。そのため、システムの長期的な運用に向けて、短期の可用性やパフォーマンスの低下を受け入れる必要が出てきます。
長期的な改善と短期の可用性はトレードオフです。
重要なことは、ページを独立したイベントをとらえるのではなく、そのページがシステム全体に与える影響を考え、長期に持続可能なシステムを目指すことです。

まとめ

  • モニタリングルールの原則、基本哲学を学んだ。
  • モニタリングは、システムを長期的に持続可能にするために行う。
  • 短期の可用性と狂気的な改善はトレードオフ

参考文献

  1. Betsy Seyerほか SRE サイトリライアビリティエンジニアリング オライリー 66-69
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0