RAID ありのサーバーを購入する際に IPMI などの低レイヤー監視の必要性を説明するための資料
目的:
- 低レイヤーハードウェア監視の必要性を理解してもらう
対象:
- RAID ありかつ IPMI なし低価格サーバーの購入が検討されている状況下にあり
- その購入に対してひとこと物申したい
- そのサーバの管理を任されそうで戦々恐々
- かつ OS レイヤーでの自由度の高い監視が仕込みにくい
- ESXi(Freeライセンス)
- Windows(?)
- そんなサーバーにはできるだけ関わりたくないが立場や状況的にいかんともしがたい方
IPMI とは?
- http://e-words.jp/w/IPMI.html
- https://thinkit.co.jp/free/article/0710/5/4/
- http://ameblo.jp/principia-ca/entry-10983675114.html
- https://www.psychz.net/client/kb/ja/what-is-ipmi-benefits-and-drawbacks.html
理由:
監視をしないと RAID にしている意味が薄れ復旧不可能なシステム障害リスクが高まります
すこし厳しい前提条件を定義します
前提条件:
- ホットスペア Disk なしの HDD x2 の RAID1 構成である
ある時間 t で片系の Disk(A) が Fail し、それから b 時間経過した t + b 時間でもう一方の Disk(B) が Fail するとします。もちろん t + b 時点で Disk(A) を復旧(t + a)させてなければ RAID1 構成は壊れます。
t : Disk(A) が壊れる日時
t + a : Disk(A) を交換し RAID を復旧する日時
t + b : Disk(B) が壊れる日時
- Disk(A) -> Disk(B) の順序で壊れるものとします
-
a,b > 0, a,b < 5年程度
- MTTF(mean time to failure)に依存するがここでは最長で 5 年程度とします
- a = b の可能性もありえ、その場合は ホットスペア Disk の必要性が出てきますが本書ではそれはいったん除外し b > a とします。すなわち、Disk(B) の障害前に Disk(A) を交換します。
- b - a > 0 の場合でも b - a = 30分 といった場合には人力による復旧は困難と思われ、この場合も ホットスペア を必要とするでしょう
a は RAID の Rebuild 時間も含みます
Disk(A): ---> 障害(t) ---> Disk交換,RAID復旧(a)
Disk(B): |-------------(未知)----------------> 障害(b)
RAID構成: |<------------復旧猶予--------------->|
- a が最小のとき復旧猶予は最大になる
なぜ監視が必要か?
答え: つまり、期間 b - a が RAID1 を壊さずに RAID1 を復旧させるための猶予であり、最小の a 時点で対応を開始することが予測不能な期間 b に対してリスクを最小にすることにほかなりません。
副次的なメリット:
- (ハードウェア)監視の知見を得られる
- IPMI の知見を得られる
デメリット:
- サーバー購入価格はあがります
- IPMI と 監視 の学習コストは必要です(が、それをコストと考えますか?)
- 監視用のサーバもしくはVMが別途必要です
以上
それでもなお、IPMI なしの安サーバーにする必要がある場合の代替案
- RAID6 + ホットスペア x1 ありなど
- 気づくのが多少遅れても RAID 崩壊のリスクは上の例に比べて下がる
- Linux などの OS レイヤーでの監視を仕込みやすい OS にする
- OS の正常動作が前提となるため障害検知の確実性がその分下がる
- OS と監視システムそのものの正常性確認の必要性
- HyperVisor として利用する場合、KVM といった知識が別途必要になる
- KVM は基本 CLI 操作となるため ESXi + vSphere Client よりも学習と管理運用コストが上がる可能性(人的リソースが少ない場合)