サーバー管理における痛恨の失敗談
こんにちは、私は現在学校でサーバー管理を担当しています。今回は、過去の失敗談をシェアすることで、皆さんが同じミスを犯さないように役立てていただければと思います。
事件の概要
ある日のこと、私は職員室で業務をこなしながらサーバー室のサーバーをリモートで操作していました。リモートデスクトップを利用して、ラック型のサーバーにアクセスしていたのです。サーバーは以下の構成でした
- ファイルサーバ
- プロキシサーバ
- バックアップサーバ
全てWindows Server 2019で運用していました。
ネットワークトラブル発生
その日、ネットワークが不調になり、ネットに繋がったり繋がらなかったりする状況が続きました。夕方ということもあり、人も少なく、私は思い切ってプロキシサーバをオフにしてローカル環境の問題を確認しようとしました。
予期せぬクレーム
すると、突然別の部署の先生からネットに接続できないとのクレームが…。どうやら、その先生は学生とのオンライン面接の練習を行っていたのです。私の判断でインターネット接続を切断したことが、大きな問題を引き起こしてしまいました。
リモート接続の悪夢
急いでリモートで接続しようとしましたが、何故か接続できません。プロキシサーバオフにしちゃいましたからね。こういう時に限ってサーバー室の鍵が見当たらないのです。なんとかスペアキーを借りてサーバー室に入りましたが、サーバーのコンソールの切り替えが3台分しかなく、普段からリモートで接続していたためプロキシサーバ は繋いでいませんでした。なのでコンソールに繋ぎ直す必要が。
配線が絡まっており非常に難儀しました。
ログインするにも何故かログイン出来ない。パスワードが※なので気づくにかなり時間がかかりましたがNumLockがオンになっていたんです。トホホ。。。
教訓
あの時は、上司や先生からかなり怒られました。インターネットを止める際は、たとえ数分であっても周知することの重要性を痛感しました。分かっていたんですけどね。。。例えば、ファイルサーバでデータのコピーが行われている最中にネットワークを切断すると、データが消失する可能性もあります。今考えただけでも非常に恐ろしいことです。
この初歩的なミスのおかげで、以降は以下の点に注意するようになりました:
- 周知徹底:インターネットを止める際には必ず関係者全員に事前に通知する。
- 適切なタイミング:メンテナンスは誰もいない時間帯に行う。
結論
この失敗談は、若い頃の私が犯したミスですが、今では良い教訓となっています。皆さんもサーバー管理において同様の失敗をしないよう、事前の周知と適切なタイミングでのメンテナンスを心がけてください。
Qiita読者の皆さんには笑われてしまいそうな内容ですが、失敗から学び成長することが大切です。今後の皆さんの参考になれば幸いです。
余談
結果的に、ネットワークの不調の原因は「ネットワークループ」でした。別の部署でループが発生していたのです💦
これも含めて、トラブルシューティングの重要性を学んだ一件でした。
以上、私の失敗談でした。