私も運用保守を学ぶ際に同じことを調べました。
個人的には、書籍単体よりも「障害事例集」や「ポストモーテム(障害報告書)」を読む方が実践的でした。
■ おすすめサイト
- Google SRE Workbook
https://sre.google/workbook/
実際の運用現場で発生する障害や、
・どう検知するか
・暫定対応
・恒久対応
・再発防止
まで学べます。
- AWS障害事例・障害対応ブログ
AWS公式ブログには実際の障害や設計上の考慮点が多数あります。
- GitHub Engineering Blog
https://github.blog/
大規模サービスの障害対応事例や運用改善事例が公開されています。
■ よくあるインシデント例
・メモリリーク
暫定対応:再起動、スケールアウト
恒久対応:コード修正
リスク:再発する可能性が高い
・DB接続枯渇
暫定対応:接続プール調整
恒久対応:クエリ改善・アプリ改修
リスク:システム全体停止
・ディスク容量不足
暫定対応:不要ログ削除
恒久対応:ログローテーション導入
リスク:DB停止やサーバ停止
・SSL証明書期限切れ
暫定対応:証明書更新
恒久対応:自動更新設定
リスク:サービス利用不可
■ 書籍
- SRE サイトリライアビリティエンジニアリング
- Web Reliability Engineering
- 入門監視
この手の知識は「書籍 → 実際の障害報告書(ポストモーテム)」の順で学ぶと理解しやすいと思います。