@taku3ma2zawa

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

解決したいこと

運用保守でよくあるインシデントとその対応内容について学べる参考書籍やサイトを見つけたい。

例)
インシデント:APサーバのメモリがひっ迫
暫定対応:サーバ再起動、クラウドならメモリ増強等
恒久対応:メモリがひっ迫しないようにアプリを改修する、運用ルールを追加して回避

こんな感じでよくあるインシデントに対して、どういった対応がとれるのか、そして各対応に対してどのようなリスクがあるのか学べる情報源を知りたい。

1 likes

2Answer

私も運用保守を学ぶ際に同じことを調べました。

個人的には、書籍単体よりも「障害事例集」や「ポストモーテム(障害報告書)」を読む方が実践的でした。

■ おすすめサイト

  1. Google SRE Workbook
    https://sre.google/workbook/

実際の運用現場で発生する障害や、
・どう検知するか
・暫定対応
・恒久対応
・再発防止
まで学べます。

  1. AWS障害事例・障害対応ブログ

AWS公式ブログには実際の障害や設計上の考慮点が多数あります。

  1. GitHub Engineering Blog
    https://github.blog/

大規模サービスの障害対応事例や運用改善事例が公開されています。

■ よくあるインシデント例

・メモリリーク
 暫定対応:再起動、スケールアウト
 恒久対応:コード修正
 リスク:再発する可能性が高い

・DB接続枯渇
 暫定対応:接続プール調整
 恒久対応:クエリ改善・アプリ改修
 リスク:システム全体停止

・ディスク容量不足
 暫定対応:不要ログ削除
 恒久対応:ログローテーション導入
 リスク:DB停止やサーバ停止

・SSL証明書期限切れ
 暫定対応:証明書更新
 恒久対応:自動更新設定
 リスク:サービス利用不可

■ 書籍

  • SRE サイトリライアビリティエンジニアリング
  • Web Reliability Engineering
  • 入門監視

この手の知識は「書籍 → 実際の障害報告書(ポストモーテム)」の順で学ぶと理解しやすいと思います。

0Like

以下の書籍があります。
木村 誠明『システム障害対応の教科書』
野村 浩司, 松浦 修治『3カ月で改善!システム障害対応 実践ガイド インシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える』
日経コンピュータ『ポストモーテム みずほ銀行システム障害 事後検証報告』
大和田 尚孝『システムはなぜダウンするのか』

0Like

Your answer might help someone💌