countdown Calendar 2021 本番環境でやらかしちゃった人
12/6日の記事です。
本番環境でやらかしたことのうち、電源系を中心に整理。
事例1:配電盤の電源を切る。
30年以上前のことで、記憶が一部あいまいかもしれません。
無停電電源装置など、電源系の機器があり、配電盤の電源を切ると、システムが自動的に落ちるように設計してあったはず。
システムが暴走していて、応答がなくなり、装置の電源ボタンを押しても落ちない。
定常業務の終了時間を待って、最後の手段の配電盤の電源を切った。
無事、システムは止まり、配電盤の電源を入れて、システムの電源を入れた。
強制終了したことに対する警告の画面が出て、システムは立ち上がった。
暴走する前に走らせていたいくつかのプログラムは起動しないように、他の仕事を実行した。
システムが暴走していたため、定常業務で定時に終わっていなかった仕事が一部はじまったのかもしれない。
惨劇はなぜおこってしまったのか
大規模なデータを計算して記録するプログラムを走らせ、
計算するメモリも保存するディスクも足りなくなったことを想定。
二度と惨劇を起こさないためにどうしたのか
プログラムを走らせる前に、必要なメモリ、必要なディスクを見積もり、
必ず空き要領の半分未満のプログラムしか走らせないようにした。
事例2:システムの電源断のボタンを押す
システム暴走のうち、何度かはシステムの電源断ボタンを押して、一部異常終了したものの、
5分待って、電源を入れたら、無事システムが立ち上がった。
惨劇はなぜおこってしまったのか
3年くらいかかる計算を始めてしまい、他のプログラムが走らなくなったらしい。
二度と惨劇を起こさないためにどうしたのか
プログラムが暴走しはじめて、そのプログラムを終了させるプログラムが動かないことをあらかじめ想定して、3日異常かかるプログラムは原則、走らせない。走らせる場合には、毎日、中間結果を保存して、途中から再開できるようにする。
事例3:無停電電源装置の電源を切る
無停電電源装置の電源を切っても、充電器に電気がある限り、供給しつづける。
装置の仕様によるが、電源供給を止める止めるためのボタンがついているものがある。
RS-232Cで電子計算機と連動しており、そちらからシステムダウンの命令を出し、システムダウンが終了したら電源供給を止める仕組みだったように記憶している。
再発防止策(本格版)
配電盤の電源を切る
無停電電源装置を設置した。配電盤の電源を切っても、電子計算機は動き続ける。
発電機と連動している系に関わったことがある。
停電した時に、発電機が故障で動かなかったような気がする。
日頃の点検、整備、非常時訓練が大事だろう。
システム電源断のボタンを押す。
シリコングラフィックスのシステムは、システムの電源断のボタンを押すと、shutdown処理を始めるようになっていた。必要な情報は退避した上で、システムが落ちる。
基本、システム電源断ボタンはソフトウェアによるシステムを落とす処理をするような系しか利用しないように。
発電装置が動かない
非常時に発電装置が動かないことはあるある。普段からよく勉強し、訓練することが大事かも。個人的には12箇所の電源を担当し、毎月1回訓練があると良さそう。
非常用発電システム
非常・防災用発電機
非常用発電装置
ニシハツの発電装置
非常用発電装置
文書履歴
ver. 0.01 初稿 20211206
ver. 0.02 再発防止策 追記 20211225
ver. 0.03 URL追記 20230215
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.