はじめに
シス研には何らかの理由で停止しているサーバーが2機存在する。今年度、サーバーを再構築するという提案が出されたが、サーバーが壊れていては意味がない。エラーランプが点滅しているが、説明書がないためエラーが特定できず、直す方法が見つからない。そこで、自作PCを何台も作成してきている私が直すこととなった。これは作業内容と結果、私の脳内会議の全貌である。
サーバー機器名・作業前状態
Fujitsu RX200 S5
CPU : Intel Xeon-E5502(2個)
RAM : PC3-10600 2GB 1枚
PSU : 770W 2個
その他 : 1端子のよくわからんRAIDコントローラー
状態 : BIOS起動せず、保守ランプ(マザーボードエラー)が点滅。
説明書 : なし☆
Fujitsu RX200 S6①
CPU : Intel Xeon-E5630(2個)
RAM : PC3-10600 2GB 4枚(全てCPU1側に装着)
PSU : 450W 2個
その他 : 1端子のよくわからんRAIDコントローラー
状態 : BIOSには入れたが、保守ランプが点滅。
説明書 : なし☆
Fujitsu RX200 S6②
CPU : なし
RAM : なし
PSU : なし
その他 : 2端子のよくわからんRAIDコントローラー
状態 : 起動できない抜け殻。①と機種が同じため、パーツの載せ替えをして機能の正常を確かめるために使用。
説明書 : なし☆
これらのサーバーは、紙の説明書が残っていなかった。富士通公式ウェブサイトにアクセスして説明書を探したが見つからず、購入時に付属しているDVDのソフトで説明書が見れると書いてあった。しかし、中古品のためDVDは見つからず。諦めて、何が原因か一つずつ検証してみることにした。
作業内容・結果
※CSS:customer self serviceの略で、自分で部品を取り替えることで直せるというランプである。
※面倒だったので、両機とも電源装置1個を外し、1個のみで検証している。
1日目
RX200 S5
CPUグリスの塗り替え・CPUの入れ替え・CPUソケットのグリス除去・パーツの入れ替え
〈結果〉
保守ランプ点滅、電源を入れて数秒後に落ちる。
RX200 S6①
CPUグリスの塗り替え・CPUの入れ替え・CPU ランドのグリス除去・COMクリア
〈結果〉
コンセントにプラグを繋げたとたん、勝手に電源が入り、ファンが高速回転(普通はしない)。保守ランプとCSSランプが点滅、謎のビープ音がなった。
RX200 S6②
-
電源、CPU、メモリが非搭載で、もしS6①のものが生きているのであれば、基盤が同じため起動可能になる。よって移植作業を行った。
〈結果〉
保守ランプは点灯したが、BIOSには到達した。だが、保守ランプが点滅し、CPU2側のメモリを認識しない。また、HDDを認識しない。 -
メモリの位置を変えて検証。
〈結果〉
メモリはすべて認識、この時はCPUが一つ死んでいるのではと考えた。 -
HDDを接続しているRAIDコントローラーに問題があると思い、S6①から1端子RAIDコントローラーを拝借。搭載されていた2端子RAIDコントローラーと交換した。
【S6①に搭載されていた1端子RAID】
【S6②に搭載されていた2端子RAID】
〈結果〉
HDDを認識
2日目
RX200 S6②
-
S6のオプション(増設の方法と規格)説明書をサポートデータベースから見つけ出し、CPU 1つでも機能することが分かったので、1つずつ検証。
〈結果〉
両方のCPUは正常であった。 -
これにより、メモリに原因があると判断。しかし、メモリはすべて正常であることを確認済み。そこで、メモリ位置を再確認した。
〈結果〉
本体カバーの裏にメモリ位置が記載されており、メモリ位置が違ったため、機能しなかったことが判明。CPU2側のメモリも認識。保守ランプは消灯し、CSSが点灯した。
〈予測〉
RX200 S5のメモリ位置が違い、CPU2つに対して1枚しかメモリがなかったため、起動しなかった可能性がある。
-
メモリを16GBに増設を試みた。このとき、S5のメモリも拝借した。
〈結果〉
メモリ16GBを無事認識。 -
Ubuntu-Desktop OSのインストールを試みた。(USBにインストールメディアを作成し、USBで実行)
〈結果〉
OSの読み込みが進まず、HDD読み込み基盤のLEDが赤く点灯。保守ランプも点滅。 -
拝借した1端子RAIDコントローラーに問題があると判断。2端子RAIDコントローラに戻して再度インストールを試みた。
〈結果〉
保守ランプは消灯し、CSS点灯。USBにてOSは無事に起動、インストール画面には到達したが、やはり、HDDを認識していない。RAIDコントローラーをさらに調査する必要あり。
〈予測〉
RAIDコントローラーに問題があり、CSSが点灯している可能性あり。
3日目
自宅調査結果
- S6②に最初からついていた2端子RAIDコントローラーは、何故か非対応のRAIDコントローラーの可能性がある。そして、そのコントローラーはS5用の可能性が出てきた。
- S6②に元々ついていいた2端子RAIDコントローラーは正常で、配線を間違えていたために機能しなかった可能性がある。
- 説明書より、HDDを本来であれば6個繋げれるが、4個までならRAIDコントローラー無しで接続が可能。もし、RAIDコントローラーが壊れていた場合は無しで接続する。
- 説明書によると、CSSはエラー箇所を確実に特定出来るらしい。メモリ位置が悪かっただけならば、CSSと合わせてエラー原因を特定し、S6①も動かせる可能性がある。
- S5はCSS非対応。よって、もし自分で交換できるものが壊れていたとしても保守ランプが点灯し、特定が一切できない。BIOSに到達出来ればエラーが表示されるのだが、到達すらできないとなると厳しい。
4日目
RX200 S6②
-
前日に予測したCSS特定を試し、2端子RAIDコントローラーの配線をやり直してみた。
〈結果〉
CSSエラー特定できず。2端子RAIDコントローラーもSSDをBIOS上では認識したが、USBのOSに入れなかった。 -
レイドコントローラーなしで検証
〈結果〉
無事にSSDを認識。OSも読み込んだが、1端子RAIDコントローラーと同様、インストール先のSSDがなぜか見つからない。 -
SSDをWindowsに繋いで初期化した(GPTに変換しただけ、パーティションはつくらない)
〈結果〉
無事、SSDにOSをインストールできた。
〈予測〉
Linuxは買ったばかりのSSDやHDDにOSをインストールすると、OSが認識してくれないことがある、と聞いたことがある。おそらく、それが原因。 -
元々挿してあった1端子RAIDコントローラーを再接続し、SSDを認識するかテストを行った。
〈結果〉
SSDを認識し、OSを読み込んだ。 -
2端子RAIDコントローラーはBIOSではSSDを認識しているが、OSの読み込みを行わないのはおかしいと思い、再度接続し、RAID設定を削除を行った
〈手順〉
- BIOS起動中にCtrl+HでWeb BIOSに入る。
- エンターを押し、tabキーでRaid configuretionを選択。
- clear Configurationを選択して、レイド情報を削除した。
〈結果〉
RAID情報を削除しても読み込まず。おそらく2端子RAIDコントローラーが故障。
RX200 S6①
-
前日に予測した、S6②に移植したCPU E5630、メモリ(16GB)、電源をもとにもどし、起動できるか検証した。
〈結果〉
電源がついたり消えたりと、最初のS5と同じ症状を繰り返した。 -
この症状の原因は、メモリエラーと判断。この症状は僕も自作PCで経験済みであり、メモリが1枚壊れた時にこの症状が見られたことを忘れていた。そこで一度メモリを取り外し、最初の8GBで検証。
〈結果〉
まさかの正常に起動。エラーランプ・CSS点灯せずに、BIOS起動。 -
もしかして2端子RAIDコントローラーが使えるのではと思い、元に戻して、OSの入ったSSDもさして起動してみた。
〈結果〉
認識はしたが、OS起動は無理でした。やはり2端子RAIDコントローラーは故障。 -
S6①に元々さしてあった1端子RAIDコントローラーを戻してOSが起動できるか検証。
〈結果〉
まさかの正常起動。保守ランプ、CSSも非点灯。完全に正常。
RX200 S5
- メモリ変えたら動くのではないかを検証。S6①に増設したメモリ(合計:8GB)をS5に移した。
〈結果〉
保守ランプが点滅して、BIOSに入れず。しかし、電源がついたり消えたりする症状が消えたため、メモリが原因なのは間違いなさそう。
〈予測〉
増設したメモリの中に互換性問題がありそう。
5日目
RX200 S5
-
昨日予測した、メモリを変更すれば動く説の続きを検証
〈結果〉
なんと保守ランプは点灯したが、BIOSが起動。 -
このS5はCSS非対応のため、故障機器を特定できない。もう手段がないため、BIOSをリセットし、OSを入れたSSDをセットした。
〈結果〉
保守ランプも消灯して、OSが正常起動した。 -
メモリをなるべく多くしたいので、メモリを追加で挿した。また、消費電力をなるべく少なくしたいので、S6①の450W電源二台と入れ替えた。(2台挿したが、コンセントに挿したのは1台のみ)
〈結果〉
BIOS起動せず、保守ランプ点滅。 -
もしかして、電源を入れ替えたらまずい?と思い電源装置を二台とも元にもどしてみた。
〈結果〉
保守ランプは点滅したが、BIOS起動した。 -
2台の電源装置両方にコンセントを挿した。
〈結果〉
保守ランプ消灯、全て正常。電源を他のものと入れ替えてはならず、二台接続している場合は必ず2台ともコンセントを繋がなければならない。
RX200 S6①
-
メモリ容量を多くするために、サークル内にあるメモリを入れ替えながら試した。また、S6の消費電力は多いので、S5の770W電源と入れ替えた。
〈結果〉
BIOSは起動したが、CSS、メモリ、保守ランプが点灯。中を見ると、エラー箇所のメモリのCSS-LEDが点灯した。 -
エラーランプのついているメモリを取り替えた。
〈結果〉
また同じエラーランプが点灯した。しかも、同じメモリスロット箇所。その後もメモリ抜き差しした結果も変わらず。 -
電源を入れ替えたらまずいとわかったため、電源2台とも元に戻した。
〈結果〉
CSS、メモリエラーは点灯したままだった。BIOSは起動 -
BIOSを初期化した。
〈結果〉
全てのランプが消灯し、OSも全て正常に起動した。
自宅調査結果
作業前に両機に搭載されていたのは、RDIMMと呼ばれるサーバー用メモリであった。そこに、私は容量の大きめのUDIMM(通常用途用)をいれた。説明書より、RDIMMとUDIMMは併用ができず、UDIMMは最大1枚2GBまでと制限があったため、BIOSが起動できなかったと思われる。
【上がRDIMM、下がUDIMM】
PC3-10600U UDIMM
PC3-10600R RDIMM
作業後状態
結論、全ての原因はメモリ種類、位置と設定!!
RX200 S5
CPU:E5502 2個
RAM:PC3-10600E 2GB x 4
M/B:正常
RAID:1端子RAIDコントローラー
動作モード:ミラーリング
PSU:770W 2個
状態:正常
RX200 S6①
CPU:E5630 2個
RAM:PC3-10600E 2GB x 4
M/B:正常
RAID:1端子RAIDコントローラー
動作モード:ミラーリング
PSU:450W 2個
状態:正常
〈作業前のエラー原因〉
CPU2つに対し、CPU1側のみにメモリがさしてあったため、CPU2側は電流のみが流れるという危険状態による保守ランプ点灯。CPU自体は正常なため、CPUエラーランプが点灯せず、CPU1側のみにメモリをさしたとしてもCPU1のみの独立モードとして動作ができるためメモリエラーも出現しない。結果、エラー原因が特定出来なかった。また、メモリの位置を変更した際、BIOSがメモリ設定情報を上書きできず、エラーが発生した可能性が高い。
RX200 S6②
CPU:なし
RAM:なし
M/B:正常
RAID:2端子RAIDコントローラー(故障)
PSU:なし
状態:CPU,RAM,PSUを入れれば起動可能
まとめ
最初の状態では、両機ともメモリ位置が悪かったために起動できずにエラーした。それに気づかずに別の基盤に移しメモリを増設したが、増設したメモリは非対応のメモリだったため、起動できなかった。説明書がないとかなり難しい内容だったため、説明書はしっかりと残しておくべき。説明書は捨てずに紙で保管しておきましょう。