More than 5 years have passed since last update.

サーバー障害対応の手順（一秒でも早くサービスを再開させる場合）

Last updated at 2014-04-08Posted at 2014-04-08

自社などでサーバーを管理している場合の障害対応についての覚書です。
サービス停止時間を一秒でも短くしたい場合のやり方です。

検知と確認

警報で検知
サービスの状況確認

本番環境につながるかどうかチェック
└間違ってdevとかstagingを見ちゃうケースもあるので注意
└複数メディアある場合は全部見る

・LVSを設定している場合、LVS側で割り振られなくなるはずなので、1台でも生きていればつながるはず（負荷は上がる）
・もし割り振られていたら何回か更新するとアクセスできない

・MASTERとSLAVEだったらサービス死亡
・Backup/Batchだと管理系死亡

・上長に連絡
　└Facebookや電話やLineやemer携帯
　　└起きなかったら、電話かけ続けながら次のフローへ

・インフラの人に連絡（お願いするしかない）

・死亡してるのにLVSでアクセスを割り振られているようなら、LVSにて該当するサーバを外す

・SLAVEを1台MASTERにあてがう。（昇格ということもあるらしい）
Behind_Seconds_Masterが0になるまで待ってから
└でないとMASTERとの差分が出る。

・configを書き換え。死亡サーバを外す。

・configを書き換え。死亡サーバを外す。

つながらなければDRACにて接続

・ApacheやMySQLが落ちてるだけなら、立ち上げ直してしばらく様子見
・I/O系のエラーは、DRACにて電源off/on

・問題なければconfigを元に戻す。
・DB系はデータの欠損があればログからデータ復旧を目指す。

いずれも、生きてるサーバの負荷に注意。

後日にちゃんと行います。