countdown Calendar 2021 本番環境でやらかしちゃった人
12/6日の記事です。
本番環境でやらかしたことのうち、電源系を中心に整理。
事例1:配電盤の電源を切る。
30年以上前のことで、記憶が一部あいまいかもしれません。
無停電電源装置など、電源系の機器があり、配電盤の電源を切ると、システムが自動的に落ちるように設計してあったはず。
システムが暴走していて、応答がなくなり、装置の電源ボタンを押しても落ちない。
定常業務の終了時間を待って、最後の手段の配電盤の電源を切った。
無事、システムは止まり、配電盤の電源を入れて、システムの電源を入れた。
強制終了したことに対する警告の画面が出て、システムは立ち上がった。
暴走する前に走らせていたいくつかのプログラムは起動しないように、他の仕事を実行した。
システムが暴走していたため、定常業務で定時に終わっていなかった仕事が一部はじまったのかもしれない。
惨劇はなぜおこってしまったのか
大規模なデータを計算して記録するプログラムを走らせ、
計算するメモリも保存するディスクも足りなくなったことを想定。
二度と惨劇を起こさないためにどうしたのか
プログラムを走らせる前に、必要なメモリ、必要なディスクを見積もり、
必ず空き要領の半分未満のプログラムしか走らせないようにした。
事例2:システムの電源断のボタンを押す
システム暴走のうち、何度かはシステムの電源断ボタンを押して、一部異常終了したものの、
5分待って、電源を入れたら、無事システムが立ち上がった。
惨劇はなぜおこってしまったのか
3年くらいかかる計算を始めてしまい、他のプログラムが走らなくなったらしい。
二度と惨劇を起こさないためにどうしたのか
プログラムが暴走しはじめて、そのプログラムを終了させるプログラムが動かないことをあらかじめ想定して、3日異常かかるプログラムは原則、走らせない。走らせる場合には、毎日、中間結果を保存して、途中から再開できるようにする。
事例3:無停電電源装置の電源を切る
無停電電源装置の電源を切っても、充電器に電気がある限り、供給しつづける。
装置の仕様によるが、電源供給を止める止めるためのボタンがついているものがある。
RS-232Cで電子計算機と連動しており、そちらからシステムダウンの命令を出し、システムダウンが終了したら電源供給を止める仕組みだったように記憶している。
再発防止策(本格版)
配電盤の電源を切る
無停電電源装置を設置した。配電盤の電源を切っても、電子計算機は動き続ける。
発電機と連動している系に関わったことがある。
停電した時に、発電機が故障で動かなかったような気がする。
日頃の点検、整備、非常時訓練が大事だろう。
システム電源断のボタンを押す。
シリコングラフィックスのシステムは、システムの電源断のボタンを押すと、shutdown処理を始めるようになっていた。必要な情報は退避した上で、システムが落ちる。
基本、システム電源断ボタンはソフトウェアによるシステムを落とす処理をするような系しか利用しないように。
発電装置が動かない
非常時に発電装置が動かないことはあるある。普段からよく勉強し、訓練することが大事かも。個人的には12箇所の電源を担当し、毎月1回訓練があると良さそう。
非常用発電システム
https://www.yanmar.com/jp/energy/emergency_generator/
非常・防災用発電機
https://www.tokyodenki.co.jp
非常用発電装置
https://www.meidensha.co.jp/products/energy/prod_04/prod_04_04/index.html
ニシハツの発電装置
https://nishihatsu.co.jp/product
非常用発電装置
https://www.fujielectric.co.jp/products/power_supply/eeg/
物理記事 上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff
数学関連記事100
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d
言語・文学記事 100
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6
医工連携関連記事一覧
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82
通信記事100
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7
自動車 記事 100
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5
OSEK 記事で views 100,000を目指して OSEK(8)
https://qiita.com/kaizen_nagoya/items/ff45ee55566eeff5f62e
無線網(Wi-Fi)空中線(antenna)(0) 記事一覧(209/300目標) https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001
なぜdockerで機械学習するか 書籍・ソース一覧作成中 (目標100)
https://qiita.com/kaizen_nagoya/items/ddd12477544bf5ba85e2
仮説(0)一覧(目標100現在40)
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df
安全(0)安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409
日本語(0)一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68
英語(0) 一覧
https://qiita.com/kaizen_nagoya/items/680e3f5cbf9430486c7d
転職(0)一覧
https://qiita.com/kaizen_nagoya/items/f77520d378d33451d6fe
一覧の一覧( The directory of directories of mine.) Qiita(100)
https://qiita.com/kaizen_nagoya/items/7eb0e006543886138f39
プログラマが知っていると良い「公序良俗」
https://qiita.com/kaizen_nagoya/items/9fe7c0dfac2fbd77a945
LaTeX(0) 一覧
https://qiita.com/kaizen_nagoya/items/e3f7dafacab58c499792
自動制御、制御工学一覧(0)
https://qiita.com/kaizen_nagoya/items/7767a4e19a6ae1479e6b
Rust(0) 一覧
https://qiita.com/kaizen_nagoya/items/5e8bb080ba6ca0281927
小川清最終講義、小川清最終講義(再)計画, Ethernet(100) 英語(100) 安全(100)
https://qiita.com/kaizen_nagoya/items/e2df642e3951e35e6a53
<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
This article is an individual impression based on the individual's experience. It has nothing to do with the organization or business to which I currently belong.
文書履歴
ver. 0.01 初稿 20211206
ver. 0.02 再発防止策 追記 20211225
ver. 0.03 URL追記 20230215
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.