ログを必ず取ろうという障害対策の教訓（実体験）

Posted at 2025-12-25

はじめに

これは自分が実際にやらかした話です。
障害は復旧できました。でも「なぜ起きたか」は最後まで分かりませんでした。
理由は単純で、ログが無かったからです。

ある日、サービスが突然落ちました。

しかし…

つまり、何が起きたのか誰にも分からない状態でした。

復旧はできた。
でも「原因が不明」という状態はずっと不安が残ります。

この状態が一番つらかったです。

ログは「保険」ではなく「証拠」でした。

障害は例外ではなく、前提条件です。
「起きた後どう調べるか」を最初から設計すべきでした。

各サーバーに散らばるログは実質見れません。
ELK, Loki, Cloud Logging などへの集約が必須です。

最低30日、可能なら90日以上。
「必要になった時にはもう無い」が一番多い。

機能だけでなく「ログが十分か」もレビューする。

障害対応で一番怖いのは「原因不明で終わること」です。
その状態を防ぐ唯一の手段がログでした。

ログは取ろう。必ず。最初から。