14
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

2分で分かるSRE障害対応

Last updated at Posted at 2022-06-28

SRE障害対応

  • 主に赤箇所の障害対応関連の記事になります。
    SRE - 06.png

  • 開発部門と運用部門で目的や価値観が異なります。
    SRE - 07.png

  • SLO、エラーバジェットという指標を両方のチームで共有します。
    SRE - 09.png

  • エラーバジェットに余裕があるないときは既存運用に集中します。
    SRE - 10.png

  • SLOを守るためにモニタリングが必要です。障害発生時は下図の対応が行われます。
    SRE - 11.png

  • ヒートマップのようにSLOの達成率を可視化します。
    SRE - 13.png

  • アラートは通知するか監視ツールのダッシュボードで確認します。
    SRE - 14.png

  • アラートを3種類に分類してページのみを通知します。
    SRE - 15.png

  • 手順や体制を明確に定義して訓練をするのが重要です。
    SRE - 16.png

  • 障害の障害の振り返り、根本原因、対策計画、教訓をまとめて次に活かします。
    SRE - 17.png

  • 人を責めないという組織文化が重要です。
    SRE - 18.png

14
16
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?