はじめに
これは、私が運用オペレーターをやっていた頃のお話です。
だいぶ前の話なので少し忘れかけていたり、話を一部ぼかしておりますので、辻褄が合わない、読みづらい箇所につきましてはご了承ください。
概要
ある日、お客様の拠点にてNW更改作業がありました。現地での配線はお客様で行い、NW機器の設定を保守チームがリモートで行い、オペレーター(私)はお客様と保守チームの間で連絡を行っておりました。
また、この時の連絡手段は全て電話で行っております。
ループ発生
お客様から配線の完了連絡を受け取った私は、その内容を保守チームへ報告しました。しかし、この時点でお客様の配線が誤っていると保守チームから連絡を受けた私は、お客様へ保守チームからの指摘を伝えたつもりでしたが、誤ったポートを伝えていました。この時伝えた構成がたまたまループしていました。
お客様は私がお伝えした通りに配線を行い、再び完了連絡を受け取った私は保守チームへ報告し、保守チームは次工程の設定変更(ポート開放とかそんな感じです)を行った瞬間、私の手元に見たことがない量のアラート(ループが原因で一部NWがダウン)が飛んできました。また、ループが発生したことによりお客様のシステムが一部停止。この時、作業時間が業務後であり、停止したシステムは業務中のみ使用されるモノだったため、サービス影響はあまりなかったのが不幸中の幸いでした。
その後はなんやかんやで復旧し、お客様からの注意と再発防止策の報告しこの作業は終了しました。
原因と対策
原因
1.全てが口頭ベースの報告になっていた
2.作業前に構成を理解できていなかった
3.作業内容が分かっていなかった
対策
1.全てが口頭ベースの報告になっていた
口頭ベースはスピード感がある反面、聞き間違え、事実とは異なる解釈を行われる恐れがあります。
そのため、今回のように設定や構成変更を伴う作業を行う時は、必ず文字ベースで連絡を取り、認識齟齬が無いようにしましょう。
2.作業前に構成を理解できていなかった
3.作業内容が分かっていなかった
事前に構成を理解していれば、聞き間違えが発生した際に踏みとどまることができます。
また、作業前に作業に関わるメンバー全員で打ち合わせを行い、認識の祖語を解決させることでスムーズな作業を可能にすることができます。
まとめ
今回、私がお伝えしたいのは末端のオペレーターも一歩間違えればお客様のシステムを停止させる危険性を秘めているということです。ですので、初心者エンジニアでオペレーターにアサインされた方には、是非、なぜこの作業を行うのか、自分たちが管理しているシステムの構成はどうなっているのかを一歩踏み込んで理解し、私のような失敗を起こさないことを願います。