More than 1 year has passed since last update.

サーバーダウン調査報告書（2024/02/19）

Posted at 2024-02-27

サーバーダウン調査報告書

前提

そうなってしまっている理由
→BTの他のサービスのインフラを構築した時に考慮を忘れていた

原因
ECRのdockerイメージを環境毎（検証用、本番用）に分割していなかった
要するに本番環境に検証用のソースコードが使われていた

何故サーバーが落ちた？
タスク更新のタイミングで検証用のdockerイメージにすり替わった

要するに本番環境に検証用のソースコードが使われていた

ということは検証用のソースコードからはAAという環境変数を参照したいが本番環境にはAAという環境変数が設定されていない
結果ビルドエラーになる

タスク起動から停止までの流れとしては
タスク起動→ビルドエラー→ヘルスチェック失敗→タスク停止→タスク起動...
なのでいつまで立ってもタスクが正常に立ち上がらずサーバーが落ちているという状況になったというのが結論

再発防止策
ECRのdockerイメージを環境毎（検証用、本番用）に分割する
そうすることで、検証環境と本番環境のdockerイメージが混同することを防ぐことができる。