何があったか
- 会社に出社したら、L2への死活監視が頻繁に反応する
- Pingが通らなくなり、クライアントPCがネットワークを利用できなくなった
どうしてそうなったのか
- Windowsは昔の名残でマスターブラウザをセグメント内で選出する
- ActiveDirectoryのDHCPプール外の端末がマスターブラウザになってしまっていた
- DHCP内の端末はそれを知らないため、マスターブラウザになろうとするPCとケンカしてしまった。
どうしたか
- マスターブラウザになっているPCとなりたいと思っているPCのLANケーブルを物理的に抜いた
- マスターブラウザになっているPCはマスターブラウザにならないように設定した
- マスターブラウザになろうとしていたPCは、認証なしのセグメントに切り替えた
- ActiveDirectoryサーバの再起動、L2スイッチをスタンバイへ切り替え(LANケーブルの物理的な差し替え)、L3スイッチのarp cacheのクリアを実施した
結果
- マスターブラウザになっていたPCとなろうとしていたPCのLANケーブルを抜いたあと、少し安定したが、死活監視は反応していた。しかし、ユーザへの影響はなかった
- ActiveDirectoryサーバの再起動、L2スイッチをスタンバイへ切り替え(LANケーブルの物理的な差し替え)、L3スイッチのarp cacheのクリアを行ったあとは安定稼働した
考察
- クライアントPCのログを確認すると、今までもマスターブラウザの競合発生していたようにみえる
- このタイミングでL2スイッチが重くなった原因を完全に特定することは難しいが、マスターブラウザの選出が関わっている可能性はあると思う
- それは、2台のPCのLANケーブルを抜くとL2スイッチが安定しケーブルを接続すると不安定になったからである
- ではなぜマスターブラウザに問題ある2台をネットワークから除外しても不安定な状態が再発したのか
- ActiveDirectoryサーバの再起動、L2スイッチをスタンバイへ切り替え(LANケーブルの物理的な差し替え)、L3スイッのarp cacheのクリアを実施して安定したため、 マスターブラウザの情報やネットワーク上にあるARPテーブルなどの情報の整合性が崩れいた可能性がる
今後の対応
- マスターブラウザの選出に影響を与えないようにDHCPプール内で固定IPアドレスは設定していく
- L2スイッチに接続されている不要なLANケーブルは順次抜いていく
- L2スイッチの各ポートを監視して、トラフィック量に異常がないか確認していく
- L2スイッチのログレベルを引き上げて、詳細なログを蓄積し解析できるようにする
1週間様子をみて
- あの障害はなんだったのかと思うほど安定している
- マスターブラウザになろうとしたPCも元のセグメントに戻して正常に繋がっている
- 実は翌日に構築ベンダーから連絡があり、1/0/3のポートがMACアドレスの学習を繰り返していてループまではいかないでも何かおかしいと連絡をもらった
- 確かに処理が追いつかず1秒ごとに学習を辞めては再開しての繰り返しをしているのはログでも確認できた
- ログを確認した当日は1秒内の話なのでそのまま放置していた
- 1/0/3のLANケーブルを抜いてみた
- 利用していない社内サーバからDOWN通知が飛んできた
- 週明け再度確認したところ、ネットワークに繋がっていないはずのサーバのLANポートがグリーンに光っている
- コンソールから確認してもインターネットへ接続できる
- 通知は間違いなくこのサーバであるが、監視サーバからpingは飛ばないのにインターネットへ出ているというか、このサーバのLANケーブルと繋がっているL2スイッチのポートのケーブルを抜いたわけではないのに、なぜネットワークにつながるのか
- とりあえずサーバのLANケーブルは抜いて、L2スイッチからも抜いた
- 再度、1/0/3のポートに接続されていたLANケーブルを確認すると、島HUBへ配線されているLANケーブルだった(どこの島かは不明)
- おそらく、どこかの島HUBからUターンしてL2に戻ってきた可能性がある(そうでないとサーバへ通信できなくなる理由がわからない)
- たまたま島HUBの電源が入ったか誰かが何かを繋いだか
今後の対応
- フロアの半分は新しくLANケーブルを新設したため、こちらはどこの島からL2スイッチのどこのポートに繋がっているかかわかる
- もう半分の方は、デスクトップも含めて無線化しようという話だったのでデスクトップの無線化を進める
- 準備ができたタイミングでL2スイッチに接続されている不要なLANケーブルを抜いていく