このBlog はNutanix アドベントカレンダー2019 1枚目の12/19分です。
#はじめに
「あ、いいところに来た、ちょっと見てもらえますか?」
この状況から問題解決までにいたるのはなかなか難しいですが、現状を正確に知ることは調査にはとても重要です。
この記事は先入観をなくし、「ここは当然XXだろう」を無くす目的で書いてます。
(この記事で問題解決に至ることは目的ではないです)
私は過去、知らないシステムなのに「ちょっとみてー」と言われるケースが多く、
その時は、問題解決することはもちろんですが、
お客様の環境を理解するというのは、その後を含めて、顧客満足度向上に繋がったなぁとの思いです。
コマンドラインでざっと見る方法もありますが、お客様と同じ画面を見ることで、さりげなく教育するため、
Prismの操作をメインで記載しています。
最近Nutanixに触れた人も分かるように、「いまさら聞けないNutanix」感を出していこうと思います。
#前提
- 「あ、いいところに来た、ちょっと見てもらえますか?」
ですので、Prismにログインぐらいはしてもらえますが、あとはの条件は - 昨日、なんか、仮想サーバが遅かった、らしい
と、ノーヒントであることを想定しています。
#今回のゴール
明らかな障害であればアプローチは異なるので、今回はNutanixの環境の今がわかることをゴールとします。
#心構え
-
先入観を無くしましょう
繰り返しですが、初めての環境では 当然LTSだろうとか、ハイブリッド構成だろうとかIPアドレスは連番だろうとか無くして調査しましょう。当たり前を無くすと手戻りなく調査できると思います。 -
二次障害を起こさない
そのためにCRUDを意識して、自分が行っている操作が本当に参照系の操作なのか確認しましょう。
CRUD:Create/Read/Update/Delete
Prismは誤操作しにくいUIになっていますが、
深く調査する場合、余計な「保存」や「OK」ボタンは押さないようにしましょう。更新(Update)されてしまいます。
#ダッシュボードからざっとみる
Prismにログインしてもらってまずはざっと見ましょう。
構成確認
- ハイパーバイザー:AHV or ESXi or Other
- ハードウェア
- 起動している仮想OSの数:規模感を理解しましょう
- PrismCentral(PC)の有無
> PCを利用していれば、他にClusterがあるかもしれません。Flowなど利用している可能性もあります。
リソース使用状況(概要)
- CPU/Memory:負荷状況感を見ましょう。30%未満、50%、70%以上 かの感覚を持ちます。
- I/Oの良し悪しをここで判断するのは難しいですがざっと下記ぐらいを見ます。構成にもよりますが、その環境が忙しいかどうかざっと見ます。
ハードウェアを調べる
- どうせハイブリッドだろう
- 全て同じスペックだろう
を無くすためにハードウェアをざっと見ましょう。
Prism >> ハードウェア >> ダイアグラム
- テーブルを見てIPアドレスの体系を確認しましょう。連番で振ってないかも
Prism >> ハードウェア >> テーブル
ソフトウェアを調べる
バージョンやライセンスを正確に知ることで、今後の調査をどこまで広げるかを考えることができますね。
Prism >> admin >> nutanixについて
使用しているサービスを調べる
- Prismから調べる
Prism 設定 > ライセンス
- Prism Cetralから調べる
Prism Centralから
Prism Central > Prism Central設定 > ライセンス
Prism Pro/Flow/Calm/Objectsなどのライセンスが確認できます。
クラスタを調べる
- 1クラスタだけ? 他にクラスタ無いか?
Prism Centralが入ってるなら、複数クラスタの可能性もあるのでPrism Centralにログイン
また、バックアップクラスタもないか確認
Prism Central > ダッシュボード
Prism > データ保護 > Remote Site
ストレージ(コンテナ)を調べる
Prism >> ストレージ >> テーブル >> Storage Container
ネットワークを調べる
Prism >> ネットワーク >> アップリンク設定
CVMを調べる
ここまででざっと環境が分かったかと思いますので、
各ポイントで違和感のあった個所を重点的に調べましょう。
ここまで数分で確認できるはず。初めての環境では確認するようにしましょう。
まとめ
さすがPrism。手順は簡単なので、手順を覚えるよりも
確認する項目を頭に入れておくと良いかも。
- ハードウェア > ソフトウェア > 負荷概要 > 利用サービス > ストレージ > ネットワーク
次回は障害対応に必要な
分析やログの見方など書いていきます。