[Q&A] 運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

解決したいこと

運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

例）
インシデント：APサーバのメモリがひっ迫
暫定対応：サーバ再起動、クラウドならメモリ増強等
恒久対応：メモリがひっ迫しないようにアプリを改修する、運用ルールを追加して回避

こんな感じでよくあるインシデントに対して、どういった対応がとれるのか、そして各対応に対してどのようなリスクがあるのか学べる情報源を知りたい。

1 likes

2Answer

@elliot_james posted at 2026-06-02

私も運用保守を学ぶ際に同じことを調べました。

個人的には、書籍単体よりも「障害事例集」や「ポストモーテム（障害報告書）」を読む方が実践的でした。

■ おすすめサイト

Google SRE Workbook
https://sre.google/workbook/

実際の運用現場で発生する障害や、
・どう検知するか
・暫定対応
・恒久対応
・再発防止
まで学べます。

AWS障害事例・障害対応ブログ

AWS公式ブログには実際の障害や設計上の考慮点が多数あります。

GitHub Engineering Blog
https://github.blog/

大規模サービスの障害対応事例や運用改善事例が公開されています。

■ よくあるインシデント例

・メモリリーク
　暫定対応：再起動、スケールアウト
　恒久対応：コード修正
　リスク：再発する可能性が高い

・DB接続枯渇
　暫定対応：接続プール調整
　恒久対応：クエリ改善・アプリ改修
　リスク：システム全体停止

・ディスク容量不足
　暫定対応：不要ログ削除
　恒久対応：ログローテーション導入
　リスク：DB停止やサーバ停止

・SSL証明書期限切れ
　暫定対応：証明書更新
　恒久対応：自動更新設定
　リスク：サービス利用不可

■ 書籍

SRE サイトリライアビリティエンジニアリング
Web Reliability Engineering
入門監視

この手の知識は「書籍 → 実際の障害報告書（ポストモーテム）」の順で学ぶと理解しやすいと思います。

0Like

@rhaya posted at 2026-06-02

以下の書籍があります。
木村誠明『システム障害対応の教科書』
野村浩司, 松浦修治『3カ月で改善！システム障害対応実践ガイドインシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える』
日経コンピュータ『ポストモーテムみずほ銀行システム障害事後検証報告』
大和田尚孝『システムはなぜダウンするのか』

0Like

Are you sure you want to delete the question?

運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

解決したいこと

2Answer

Your answer might help someone💌