謎のアドベントカレンダー、最終話です。
筆者の職場のオンプレ時代末期、近隣のデータセンターが提供していたクラウドメニューを利用していた頃の話です。
仮想マシン 1 つ分のシステムを預けていた
そのクラウドにはごくごく小さいシステムを 1 つだけ、VMware の仮想マシンとして預けていました。
もともとオンプレのマシンの上で動かしていた仮想マシンを変換したものです。
しばらくは何の問題もなく運用できていました。
ある日から
唐突にネットワーク越しの接続が不安定になりました。
「まあすぐに直るだろう」
と思って静観していたのですが、3 日経っても 5 日経っても不安定なままでした。
そして、当初は「そんなに重要なシステムじゃないから」と同じく静観(という名の放置を)していた上司が「いつになったら直るんだ💢」とキレ始めて(たまたま上司からの電話を取ってしまった)同僚 H さんがとばっちりを受けたのを機に、ポータブル HDD を持って仮想マシンイメージを引き取りに行き、別のデータセンターで稼働中のオンプレ VMware 上に引っ越しました。
(H さんみたいな貧乏クジを引く人、職場に必ず一人は居る説)
このシステムには機密情報が入っていなかったので、週末の夜中に車に乗って一人で引き取りに行き、その足で引っ越し先データセンターのラック内にポータブル HDD を保管、翌日移設を完了させました。
(仮想マシンイメージを引き取りに行く際、栄養ドリンクを差し入れしてきました)
後日
この件を機に契約は終了していたのですが、復旧後に障害原因について報告をいただきました。
そのシステムの中に、
- 1 台だけ、以前のシステムのときに予備機として未通電状態で保管していたスイッチを流用していた
- そのスイッチが、 物理的な見た目(各ポートのリンク・送受信ランプなど)と SNMP 上はあたかも正常動作しているように振る舞っていたが、実は壊れていた
- どんな役者だよ
- そこだけ流用だったが故に、ベンダーによる障害箇所特定の調査対象からも外れていた
とのことでした。
流用ダメ、絶対。
以上 25 日間、完走しました!
(完走…と言って良いのか?)