謎のアドベントカレンダー、第 14 話です。
前回の、
から 10 年後の話です。
2006 年 8 月 14 日、事件は起きた
この日付でピンと来た方も割と多いのではないかと思います。
この頃、筆者の勤務先の社外向けサービスを、東京のデータセンターで運用していました。
というか、運用を他社に委託していました。
この日の朝、クレーン船がクレーンを伸ばした状態で(旧)江戸川を航行し誤って送電線に触れて溶断させたことをきっかけに、品川火力発電所が電力の需給バランスを崩して停止、東京湾周辺で大規模停電が発生しました。
そのとき、某データセンターでは
商用電源の供給が止まるとともに UPS(CVCF)からの給電に切り替わり、いざ自家発電設備からの給電に切り替え!…ようとしたのに切り替えができず、そのうちバッテリーが尽きてサーバー室(ハウジング/コロケーションルーム)への電力供給がロスト。
結果、室内のサーバー・機器は突然停止、です。
当日は、停電により電車の運行に支障が生じたこともあってか、筆者の勤務先が運用委託していた会社のオペレーターの方も駆けつけるのが遅れ、復旧まで時間を要しました。
ただ、当日はお盆休みの会社も多く、サービスの利用者もそれほど多くなかったのが不幸中の幸いでした。
(10 年越しの伏線回収だ!)
その後
データセンターを契約する際に、 UPS や自家発電設備の点検とともに切り替え訓練を定期的に行なっているか が選定の一つのポイントになりました。
とはいえ、切り替え訓練にはそれなりにリスクもあるので、 過去何度もトラブルなく訓練できているか もあわせて重視していました。
(他には、自家発電機と燃料タンクの設置場所、緊急時に燃料を運ぶ経路が建物崩壊などで全て塞がれたりしないか?などなど。燃料の優先供給については、東日本大震災でアテにならないことがわかったので、タンクの容量も大事かな、と)
そして
筆者の勤務先のサービスは約 5 年前に AWS に全て移行し、その後はどちらかというと利用リージョン・ゾーン障害のことを気にしていたのですが。
某 K 社(元 N 社というか I 社というか)のデータセンター、2020 年と 2022 年の 2 度にわたって電源設備障害を起こし、しかも 2022 年は点検作業のミスで障害を発生させたという話なので、やはり トラブルを繰り返すところは繰り返すんだな、 という認識です。
(AWS 東京リージョンも、これまでの比較的大規模な障害は 3 回中 2 回が空調設備のトラブルだったようなので、電源設備ではないけれど 弱い部分の障害は繰り返し発生するんだな、 という認識です)
🍥🍥🍥
15 日目の記事に続きます。