More than 5 years have passed since last update.

RAID ありのサーバーを購入する際に IPMI などの低レイヤー監視の必要性を説明するための資料

Last updated at 2016-09-28Posted at 2016-09-28

RAID ありのサーバーを購入する際に IPMI などの低レイヤー監視の必要性を説明するための資料

目的:

低レイヤーハードウェア監視の必要性を理解してもらう

対象:

RAID ありかつ IPMI なし低価格サーバーの購入が検討されている状況下にあり
その購入に対してひとこと物申したい
そのサーバの管理を任されそうで戦々恐々
かつ OS レイヤーでの自由度の高い監視が仕込みにくい
- ESXi(Freeライセンス)
- Windows(?)
そんなサーバーにはできるだけ関わりたくないが立場や状況的にいかんともしがたい方

IPMI とは?

理由:

監視をしないと RAID にしている意味が薄れ復旧不可能なシステム障害リスクが高まります

すこし厳しい前提条件を定義します

前提条件:

ホットスペア Disk なしの HDD x2 の RAID1 構成である

ある時間 t で片系の Disk(A) が Fail し、それから b 時間経過した t + b 時間でもう一方の Disk(B) が Fail するとします。もちろん t + b 時点で Disk(A) を復旧(t + a)させてなければ RAID1 構成は壊れます。

t     : Disk(A) が壊れる日時
t + a : Disk(A) を交換し RAID を復旧する日時
t + b : Disk(B) が壊れる日時

Disk(A) -> Disk(B) の順序で壊れるものとします
a,b > 0, a,b < 5年程度
- MTTF(mean time to failure)に依存するがここでは最長で 5 年程度とします
- a = b の可能性もありえ、その場合はホットスペア Disk の必要性が出てきますが本書ではそれはいったん除外し b > a とします。すなわち、Disk(B) の障害前に Disk(A) を交換します。
- b - a > 0 の場合でも b - a = 30分といった場合には人力による復旧は困難と思われ、この場合もホットスペアを必要とするでしょう
a は RAID の Rebuild 時間も含みます

Disk(A): ---> 障害(t) ---> Disk交換,RAID復旧(a)
Disk(B):            |-------------(未知)----------------> 障害(b)
RAID構成:            |<------------復旧猶予--------------->|

a が最小のとき復旧猶予は最大になる

なぜ監視が必要か?

答え: つまり、期間 b - a が RAID1 を壊さずに RAID1 を復旧させるための猶予であり、最小の a 時点で対応を開始することが予測不能な期間 b に対してリスクを最小にすることにほかなりません。

副次的なメリット:

(ハードウェア)監視の知見を得られる
IPMI の知見を得られる

デメリット:

サーバー購入価格はあがります
IPMI と監視の学習コストは必要です(が、それをコストと考えますか?)
監視用のサーバもしくはVMが別途必要です

以上

それでもなお、IPMI なしの安サーバーにする必要がある場合の代替案

RAID6 + ホットスペア x1 ありなど
- 気づくのが多少遅れても RAID 崩壊のリスクは上の例に比べて下がる
Linux などの OS レイヤーでの監視を仕込みやすい OS にする
- OS の正常動作が前提となるため障害検知の確実性がその分下がる
- OS と監視システムそのものの正常性確認の必要性
- HyperVisor として利用する場合、KVM といった知識が別途必要になる
  - KVM は基本 CLI 操作となるため ESXi + vSphere Client よりも学習と管理運用コストが上がる可能性(人的リソースが少ない場合)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up