はじめに
先日、IBM Cloud Power Systems Virtual Server 内で使用されている SAN switch メンテナンスのお知らせがありました。
順次 リージョンごと、データセンター毎に実施されている様子です。
今回 AIX 7.2 TL5 に言及された記載があり、AIX の VM ではどのような影響があるのかを確認しました。
IBM Cloud のメンテナンス通知
以下は IBM Cloud OSA21 での PowerVS ストレージ・デバイス・メンテナンス通知の内容抜粋です。
OSA21 PowerVS Storage Devices Maintenance
------------------------------
Description:
YOUR ACTION MAY BE REQUIRED. Please review the entire contents of this notice.
==> メンテナンスに伴ってユーザー側の対応が必要になる可能性。
What are we changing?
------------------------------
Firmware updates will be performed on the storage area network (SAN) switches.
The updates will occur across 2 days as indicated above.
==> SAN スイッチのアップデートが行われるとのこと。
Why are we making this change?
------------------------------
The updates are required to apply security fixes.
==> セキュリティ fix 適用のためアップデート。
How will it impact the customer?
------------------------------
Users may experience a temporary loss of redundant paths to disks while the upgrade
activity is in progress. One half of the redundant disk paths may become unavailable
temporarily during the maintenance. The paths should recover after the switch completes
activation of the new firmware.
Access to disks are expected to remain available throughout the maintenance window.
There may be a temporary pause in I/O processing as the OS multi-pathing software
re-directs traffic to an alternate available path.
==> OS マルチ・パス構成で一時的にパスが失われて別パスが使われる可能性。
What actions, if any, can customers take to avoid disruption?
------------------------------
YOUR ACTION IS REQUIRED! Please ensure your VM's operating system is running with
the latest disk multi-pathing software. To confirm you are running with the latest
fixes, please contact the appropriate OS support team (e.g., AIX support, IBMi support,
Linux support), and apply any required updates prior to the start of this maintenance.
AIX 7.2 TL5 customers should ensure they are running with the latest service pack and
latest fixes for NPIV.
==> AIX 7.2 TL5 の場合は最新SPの適用を推奨。
Prior to the start of the maintenance:
- Please check that all disk paths on your VM's are configured and online prior to this
- service activity.
- If your VM is part of a high availability cluster with disk heartbeating enabled
(or equivalent disk monitoring feature), you may need to adjust the timeout values.
==> メンテナンス日時前に、パスの冗長性や、HAを構成している場合は、ディスクモニタリングの間隔調整を確認することを推奨。
Post-Maintenance customer activity:
- Please check that all disk paths have recovered and are online after each day's
scheduled service activity has concluded.
==> メンテナンス後にはディスクパスが回復していることの確認を推奨。
お知らせはここまで。
環境
以下の環境で確認しました。
IBM Cloud Power Systems Virtual Server (OSA21)
VM : AIX 7.2 TL5 SP5
# oslevel -s
7200-05-05-2246
# lslpp -L devices.common.IBM.mpio.rte
Fileset Level State Type Description (Uninstaller)
----------------------------------------------------------------------------
devices.common.IBM.mpio.rte
7.2.5.200 C F MPIO Disk Path Control Module
# lslpp -l devices.vdevice.IBM.vfc-client.rte
Fileset Level State Description
----------------------------------------------------------------------------
Path: /usr/lib/objrepos
devices.vdevice.IBM.vfc-client.rte
7.2.5.200 COMMITTED Virtual Fibre Channel Client
Support
- PowerVS インフラ推測 簡易構成図
以下は想像のIBM Cloud Power VS の構成図です。
理解のための概念図のため完全な正確性はありませんのでご了承ください。
発生していた AIX の errpt の確認
通知にあったSAN スイッチのメンテナンス完了後で、OSA リージョンに作成していた AIX VM で以下の errpt が発生していました。
リンクダウンや PATH FAIL 発生していますが、同時間に全ディスク・パスが失われるような状況は発生していない様子でした。
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
F31FFAC3 0215231324 I H hdisk0 PATH HAS RECOVERED
65DE6DE3 0215231324 P S hdisk0 REQUESTED OPERATION CANNOT BE PERFORMED
DE3B8540 0215231324 P H hdisk0 PATH HAS FAILED
754F65F2 0215161624 T S fcs1 LINK_DOWN event reported by the VIOS
F31FFAC3 0215074524 I H hdisk0 PATH HAS RECOVERED
F31FFAC3 0215074524 I H hdisk0 PATH HAS RECOVERED
2100ECAB 0215074424 T S fcs0 LINK_DEAD events reported by the VIOS
DE3B8540 0215074424 P H hdisk0 PATH HAS FAILED
754F65F2 0215074324 T S fcs0 LINK_DOWN event reported by the VIOS
実行されたメンテナンス作業のイメージは以下のように1台ずつ実行されたと考えられます。
- 1つのSAN switch update 実行のイメージ
おわりに
Cloud 環境でも、OSレイヤー以下の物理筐体のメンテナンスが実行されるとOS側にも影響があることがあります。
メンテナンス通知内に、AIX 7.2 TL5 のバージョン指定の記述があったため影響を心配しましたが、最新SPではない AIX TL5SP5でも大きく問題は発生しなかった結果となり安心しました。
ただ、今後も下層レイヤーが継続的にアップデートされると、OS側のバージョンが古い場合で影響が発生しうることの可能性はあり、(オンプレのように塩漬けにできない場合が出てくる可能性がある)、なるべく新しいバージョンを適用した方が望ましいと思います。
以上です。