はじめに
ハードウェア監視について、実際に何を監視しているのかについて理解できていないなと思ったので、改めて学び直しました。
ハードウェア監視とは:
サーバやネットワーク機器といった「物理的に存在するコンポーネント」の状態を継続的に把握し、
異常や故障の兆候を検知して、人や運用システムに通知すること
です。
以下、
どこを監視するのか、どうやって監視するのか、実際の運用の中でのシナリオ をまとめています。
どこを監視するのか(対象)
オンプレミスの一般的なサーバ運用では、監視対象は大きく次の4層に分かれます。
① アプリケーション / サービス
② ミドルウェア
③ OS / 仮想化ハイパーバイザ
④ ハードウェア(+ファームウェア)← ここ!
ハードウェア監視は、この④の層を主対象とする監視で、「OSより下」を見ています。
各層との違い
| 層 | 何を守る? |
|---|---|
| アプリケーション監視 | ユーザー体験・業務処理 |
| ミドルウェア監視 | 処理基盤(DB、アプリランタイム) |
| OS監視 | サーバ資源(CPU/メモリ/ディスク) |
| ハードウェア監視 | 物理的な壊れやすい部品 |
監視の仕組み(方法)
BMC(Baseboard Management Controller)とは
商用サーバーには「BMC」という特別なハードウェアが搭載されています。これは、OSが起動していなくても、ネットワーク経由でサーバーを管理できる仕組みです。
BMCでできること:
- 遠隔地からサーバーの電源ON/OFF
- ハードウェア故障の検知と通知
- 温度やファンの状態監視
- OSインストール作業の遠隔実施
メーカー別の名称:
- HPE ProLiant: iLO(Integrated Lights-Out)
- Dell PowerEdge: iDRAC(Integrated Dell Remote Access Controller)
- Lenovo ThinkServer: TSM
- Cisco UCS: CIMC
監視プロトコル
ハードウェア監視では、以下のプロトコルが使われます。
IPMI(Intelligent Platform Management Interface)
- BMCと通信するための標準プロトコル
- 温度、電圧、ファン速度などのセンサー情報を取得
- OSに依存せず動作
SNMP(Simple Network Management Protocol)
- ネットワーク機器やサーバーの状態を取得
- 定期的なポーリング(状態確認)とトラップ(異常通知)の2つの方式
- 広く普及している標準プロトコル
実際の運用シーン例
シーン1: 休日夜間のメモリ故障
状況:
22:30 サーバーAのメモリが故障し、サーバー停止
22:31 監視システムがアラートを検知
22:32 監視オペレーターに自動通知(メール、Slack)
22:35 オペレーターが運用担当SEに連絡
22:40 SEが状況確認
- サーバーBが稼働中(冗長構成)
- サービスは継続中
- ログからメモリ故障を特定
22:45 ハードウェアベンダーに修理依頼
監視が検知した内容:
- BMCからのSNMPトラップ「Memory Error」
- サーバーAへのpingが応答なし
- サービス監視でサーバーAが応答停止
- サーバーAのログから、メモリ故障を特定
結果:
サービス影響なし。数日後にメモリ交換完了。
自分の理解
- BMCが、ネットワークプロトコル経由、メモリエラーを最初に検知。
- pingが、サーバーを特定。
- ログで、問題の原因(サーバーのどこでメモリ故障が起きているか)を特定。
シーン2: ディスク故障の早期発見
状況:
03:00 サーバーDのディスクにS.M.A.R.T.エラー発生
03:01 監視システムが検知、アラート発行
09:00 朝の定例確認で運用担当が気づく
09:30 ディスク交換計画を立案
- RAID構成のため即座の影響なし
- 週末のメンテナンス時間に交換予定
監視が検知した内容:
- S.M.A.R.T.(Self-Monitoring, Analysis and Reporting Technology)の異常値を記録する。
- ディスクの読み取りエラー増加
- RAID再構築の必要性
結果:
計画的なディスク交換により、データ損失を回避。
自分の理解
- ハードウェア(HDD/SSD)が自身に内蔵された S.M.A.R.T.(Self-Monitoring, Analysis and Reporting Technology)機能から、ディスクの中にディスク故障を記録する。
- OS上の常駐デーモンが、定期的にポーリングをしているので、故障をした場合は気づいて、ログに出力する。
- 監視システムが、ログを見てエラーに気づき通知する。
おわりに
ハードウェア監視について、何を見ているのか、どういう流れで検知〜原因特定しているのかというところの解像度が少し上がりました。
初心に戻って、わからないところがあれば毎回調べて潰すことで全体的なIT運用の解像度を上げていきたいなと思います!
参考
- ハードウェア監視とは|「分かりそう」で「分からない」でも「分かった」気になれるIT用語辞典
- IPMI仕様書(Intelligent Platform Management Interface)
- SNMP(Simple Network Management Protocol)RFC文書