はじめに
仕事でLifeKeeperの検証~構築手順書への落とし込みを担当しておりました。
今回は、LifeKeeperの検証を行っていた際のトラブルシューティングの内容になります。
LifeKeeper構築後の試験の際にインターフェースダウンの挙動がおかしくなる事象がありました。
こちらの原因と対処について解説していきます。
環境
こちらの環境になります。
-
HyperVisor(今回は省略)
vSphere6.7(ESXi6.7) -
VM(「サーバー」の部分)
RHEL6.9 -
NIC
Service用NIC × 1
コミュニケーションパス用NIC × 2 -
共有ディスク/Quorumディスク#1,#2
VMDK
起きた事象
片系ずつサービスNICを落とした挙動についてテストしました。
実行したコマンド
# ifdown eth0
- サーバー#1でのインタフェースダウン
- サーバー#2でのインタフェースダウン
こちらの試験を実施したところ、結果に差異がありました。
サーバー#1のサービスNIC
→数秒後に自動復旧
サーバー#2のサービスNIC
→DOWN状態のまま
疑問に思ったので調査をしました。
原因
サーバー#2の「NetworkManager」が立ち上がっていた。
※サーバー1の「NetworkManager」はオフの状態
対策
サーバー#2の「NetworkManager」のサービス停止/自動起動停止を実施
# service NetworkManager stop
# chkconfig NetworkManager off
再度テストを実施したところ、サーバー#1と同じ挙動であることを確認
最後に
いかがでしたでしょうか?
今回、初めてLifeKeeperについての記事を上げました。
LifeKeeperのHAクラスターの設計・構築をしている方に参考になる記事になると思います。
今回の内容はミドルウェア(LifeKeeper)から疑って調査した結果になります。
一つでも参考になれば幸いです。
よろしければTwitterのフォローも宜しくお願いします!
https://twitter.com/satton6987
主にインフラエンジニアのキャリアハックや技術について呟いています。