この記事は、MicroAd Advent Calender 2022の11日目の記事です。
概要と注意
この記事は、Ubuntuのinstallイメージ(iso)を使って、サーバーをレスキューした話です。
かなりニッチな話ですし、Live-CDなどを使えばもっと簡単に対応できるかもしれません。
また、リモートで作業する前提で書いていますが、
サーバーの目の前で作業できるのであればこれより遥かに簡単に対処可能です。
きっかけ
マイクロアドでは、MAASを使ってサーバーにOSをデプロイするようにしています。
今回は、このMAASが引き起こした現象により、サーバーを操作できなくなったため対処することになりました。
MAASで管理していたホストをリリース(利用終了して開放)したあと、HW情報を更新しようとしてcommissionを実施した際に、
ipmi経由での接続ができなくなるということが発生しました。
このような ”BMC - Access denied while〜” というログが出力され、電源ステータスが取得できない状況になりました。
根本的な原因
この原因は、MAASがcommission時に行っているBMCに対する設定処理の中で、
cipherの権限設定が意図しないものに上書きされていることが原因でした。
この問題はMAAS ver3.1までに含まれているバグで、3.2以降は改修されているようです。
やったこと
起きている状況
この問題の対処には、ipmiの権限設定を修正するという対応が必要になります。
しかし、外部のLinuxホストからipmitoolコマンドで操作することができず、
問題のあるホストでOSを起動しipmitoolコマンドでローカルのBMCを操作する必要がありました。
問題になったこと
ここでの問題は、通常のトラブルであればMAASのレスキューモードを利用し、
Liveモードでホストを起動することができる為、ipmiの復旧を行うことができます。
しかし、電源操作ができなくなっていることで、レスキューモードを起動することができなくなっていました。
そのため、MAASの仕組み以外でLiveモードでOSを起動し、ipmitoolコマンドを実行できる必要がありました。
手順
幸い、今回の問題が起きている状態でも、WEB-UIを使ってBMCへ接続できる状況にありました。
そこで以下の手順でリモートから復旧作業を行いました。
- UbuntuのインストールISOファイルをダウンロード
- httpサーバーが動いているホストにISOイメージを保存(該当ホストのBMCからも参照できること)
- ブラウザで、BMCへの接続
- BMCのリモートコンソール等の機能に含まれる、Virtual Mediaなどの機能を利用し、
ISOイメージのURLを指定(マウント)する。 - BMCから電源操作し、Boot指定でVirtual Mediaを使って起動する。
- Ubuntuのインストーラーが起動するので、右上のHelpメニューから「Enter shell」でShellを起動し、
ipmitoolのaptコマンドでipmitoolをインストール - ipmitoolコマンドで、cipher_privsを現状設定を確認の上、編集します
- MAASの画面上から、電源ステータスが取れるようになったことを確認
このような手順で、復旧することにしました。
実際の対応
ライブモードのLinuxとして起動するのは、Ubuntuのインストーラーでなくても問題ありません。
Virtual MediaへISOファイルをマウント
サーバーメーカーのBMCにより設定方法が異なると思いますが、
今回問題が起きていたLenovoのIMM2では、以下のような感じで設定しました。
この画面のMountボタンを押すと、ポップアップでURLを指定するページが表示されます。
URLを指定して、「Mount the Image」をクリックすると、Virutal Media(CD)としてISOファイルをマウントできます。
ISOファイルからboot
Lenovoのロゴが出ている状態で、F12キーを入力することでbootデバイスを指定できるメニューが出ます。
この画面でF12キーを入力
メニューから、「CD/DVD Rom」を選択することでVirtual MediaのISOを起動することができます。
右上にあるHelpから「Enter Shell」でroot権限のshellを起動します。
このあとは、aptでipmitoolをインストールして設定を変更するだけなのですが、
さらにリモートでやっている関係で問題が発生しました。
keymapがおかしい
IMMの仮想コンソールを使っている影響か、キーマップを変えても文字が入力できずハマるという事態に。
やむなく現場に行くしか無いかと諦めかけていたところ、
インストーラーが起動している状態でもSSHできることが判明しました。
この 「Help on SSH access」 を選ぶと、次のような画面が表示され、SSHでログインできます。
ここで表示されている情報でログインすることで、SSH経由で操作できるようになります。
ipmitool使って復旧
無事にターミナルからログインできたら、ipmitoolをインストールして、
復旧対応を行います。
今回のLenovoサーバーは、通常以下のように設定されているのが正しい状態です。
root@ubuntu-server:~# ipmitool lan print 1 |grep Cipher
RMCP+ Cipher Suites : 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
Cipher Suite Priv Max : aaaaaaaaaaaaaaa
: X=Cipher Suite Unused
問題が発生しているときの設定値
root@ubuntu-server:~# ipmitool lan print 1 |grep Cipher
RMCP+ Cipher Suites : 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
Cipher Suite Priv Max : XXXaXXXXaXXXaXX
: X=Cipher Suite Unused
このように、本来"aaaaaaaaaaaaaaa"となるべきところが、"XXaXXXXaXXXaXX"となっていました。
これを次のようなコマンドで上書きします。
root@ubuntu-server:~# ipmitool lan set 1 cipher_privs aaaaaaaaaaaaaaa
これにより、本来の設定値に上書きでき、以降MAASからも電源ステータスが取得できるようになります。
この問題をMAASで回避する方法
MAASのCommission時に、
「Skip configuring supported BMC controllers with a MAAS generated username and password」
にチェックを入れてCommissionすることでこの問題を回避することができます。
なにより、MAASを3.2以降にバージョンアップしていれば問題ありません。
また、一部メーカーの機器でのみ発生するようでマイクロアドではLenovoサーバー以外では問題が発生していませんでした。
おわりに
今回、かなりレアな対応をすることができました。
リモートで復旧までこぎつける方法を考えるのも楽しかった(というと怒られそう)です。
アドベントカレンダーのネタを考えているときに起きた問題だったので、
ちょうど良く記事が書けたのも良かったです。
そして今後のために、各種ツールをインストールしてあるLinux LiveのISOイメージを作ろうと思います。