はじめに
AIX の rootvg ミラーリング構成において、OS の稼働確認で rootvg の片方の hdisk に障害が発生することを想定した障害テスト・ケースの実行例です。
VIOS の vscsi 構成を前提として、両方のVIOSで対象 hdisk に紐づく VTD(Virtual Target Device, vtscsi ) を構成解除することで、擬似的に障害を発生させています。
環境
AIX 7.3 TL0 SP1 (ホスト名: aixtest0210)
# oslevel -s
7300-00-01-2148
VIOS(冗長構成) 3.1.4.10
$ ioslevel
3.1.4.10
AIX 上でボリュームの WWN (World Wide Name) を確認
rootvg は hdisk0、hdisk1 のミラーリング構成です。
# lspv
hdisk0 00c5ca219297e13e rootvg active
hdisk1 00c5ca219297e118 rootvg active
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/syncd N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/syncd N/A
hd4 jfs2 32 64 2 open/syncd /
hd2 jfs2 107 214 2 open/syncd /usr
hd9var jfs2 6 12 2 open/syncd /var
hd3 jfs2 8 16 2 open/syncd /tmp
hd1 jfs2 1 2 2 open/syncd /home
hd10opt jfs2 64 128 2 open/syncd /opt
hd11admin jfs2 4 8 2 open/syncd /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/syncd /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 open/syncd N/A
各hdiskのWWN(World Wide Name: ストレージデバイスに割り当てられる識別子) を確認
# lsmpio -ql hdisk0
Device: hdisk0
Vendor Id: AIX
Product Id: VDASD
Revision: 0001
Capacity: 25.00GiB
Volume Serial: 60050763808106D7D8000000000003FA (Page 83 NAA)
hdisk0 の WWN は 60050763808106D7D8000000000003FA です。
# lsmpio -ql hdisk1
Device: hdisk1
Vendor Id: AIX
Product Id: VDASD
Revision: 0001
Capacity: 25.00GiB
Volume Serial: 60050763808106D7D8000000000003F9 (Page 83 NAA)
hdisk1 の WWN は 60050763808106D7D8000000000003F9 です。
VIOS 上で対象デバイスを確認
VIOS#1
p1001v というホスト名の VIOS です。
# hostname
p1001v
AIX 上で確認した WWN より、VIOS で対象ボリュームの hdisk 番号を確認します。
$ oem_setup_env
# lspv -u | grep 60050763808106D7D8000000000003FA
hdisk12 00c5ca2190e41e64 None 3321360050763808106D7D8000000000
# lspv -u | grep 60050763808106D7D8000000000003F9
hdisk13 00fa00d6b552f41b None 3321360050763808106D7D8000000000003F904214503IBMfcp 7cb44186-fc5f-f786-d71b-9ece34695acd
AIX の hdisk0 は VIOS#1 で hdisk12 です。
AIX の hdisk1 は VIOS#1 で hdisk13 です。
続いて対象の hdisk がどの vhost、vtscsi を使用しているかを確認します。
$ lsmap -all
(抜粋)
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost9 U9105.41B.785CA21-V1-C17 0x00000015
VTD vtscsi7
Status Available
LUN 0x8100000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LC000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk13
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LD000000000000
Mirrored false false
対象のLPARは vhost19 で接続しています。
hdisk12 は vtscsi7、hdisk13 は vtscsi8 です。
VIOS#2
続いて VIOS 2号機です。
p1001v というホスト名の VIOS です。
# hostname
p1002v
AIX 上で確認した WWN より、VIOS で対象ボリュームの hdisk 番号を確認します。
$ oem_setup_env
# lspv -u | grep 60050763808106D7D8000000000003FA
hdisk11 00c5ca2190e41e64 None 3321360050763808106D7D8000000000003FA04214503IBMfcp 6f5d15d7-bf41-af13-49c3-b546877934b9
# lspv -u | grep 60050763808106D7D8000000000003F9
hdisk12 00fa00d6b552f41b None 3321360050763808106D7D8000000000003F904214503IBMfcp 7cb44186-fc5f-f786-d71b-9ece34695acd
AIX の hdisk0 は VIOS#2 で hdisk11 です。
AIX の hdisk1 は VIOS#2 で hdisk12 です。
続いて、対象のhdiskがどのvhost、vtscsiを使用しているかを確認します。
$ lsmap -all
(抜粋)
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost13 U9105.41B.785CA21-V2-C20 0x00000015
VTD vtscsi7
Status Available
LUN 0x8100000000000000
Backing device hdisk11
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LB000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LC000000000000
Mirrored false
対象の LPAR は vhost13 で接続しています。
hdisk11 は vtscsi7、hdisk12 は vtscsi8 です。
障害テスト・ケース
VIOS上で VTD(Virtual Target Device)を構成解除し、hdisk0 を VIOSで認識されている hdisk をAIX で接続できない状態にします。
障害発生手順
障害発生前確認
AIX 上で障害発生前の確認を行います。
# errpt
#
# lspv
hdisk0 00c5ca219297e13e rootvg active
hdisk1 00c5ca219297e118 rootvg active
rootvg 確認
# lsvg rootvg
VOLUME GROUP: rootvg VG IDENTIFIER: 00c5ca2100004b000000018d9297e0f4
VG STATE: active PP SIZE: 32 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 1438 (46016 megabytes)
MAX LVs: 256 FREE PPs: 876 (28032 megabytes)
LVs: 13 USED PPs: 562 (17984 megabytes)
OPEN LVs: 12 QUORUM: 1 (Disabled)
TOTAL PVs: 2 VG DESCRIPTORS: 3
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 2 AUTO ON: yes
MAX PPs per VG: 32512
MAX PPs per PV: 1016 MAX PVs: 32
LTG size (Dynamic): 256 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable
PV RESTRICTION: none INFINITE RETRY: no
DISK BLOCK SIZE: 512 CRITICAL VG: no
FS SYNC OPTION: no CRITICAL PVs: no
ENCRYPTION: yes
rootvg の LV 確認
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/syncd N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/syncd N/A
hd4 jfs2 32 64 2 open/syncd /
hd2 jfs2 107 214 2 open/syncd /usr
hd9var jfs2 6 12 2 open/syncd /var
hd3 jfs2 8 16 2 open/syncd /tmp
hd1 jfs2 1 2 2 open/syncd /home
hd10opt jfs2 64 128 2 open/syncd /opt
hd11admin jfs2 4 8 2 open/syncd /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/syncd /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 open/syncd N/A
ブートリスト確認
# bootlist -m normal -o
hdisk0 blv=hd5 pathid=0
hdisk0 blv=hd5 pathid=1
hdisk1 blv=hd5 pathid=0
hdisk1 blv=hd5 pathid=1
VIOS 上で VTD (Virtual Target Device, vtscsi) の構成解除を実行
VIOS#1
VIOS 1号機で実行します。
$ hostname
p1001v
- 対象 vtscsi7 の状態を確認
$ lsdev | grep vtscsi7
vtscsi7 Available Virtual Target Device - Disk
vtscsi7 は Available(使用可能)状態です。
- vhost9 の確認
$ lsmap -vadapter vhost9
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost9 U9105.41B.785CA21-V1-C17 0x00000015
VTD vtscsi7
Status Available
LUN 0x8100000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LC000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk13
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LD000000000000
Mirrored false
vtscsi7 は Available(使用可能)状態です。
$ lsdev | grep vtscsi7
vtscsi7 Available Virtual Target Device - Disk
vtscsi7 の構成解除を実行
$ rmdev -dev vtscsi7 -ucfg
vtscsi7 Defined
$ echo $?
0
$ lsdev | grep vtscsi7
vtscsi7 Defined Virtual Target Device - Disk
vtscsi7 は Defined (定義済み) 状態です
$ lsmap -vadapter vhost9
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost9 U9105.41B.785CA21-V1-C17 0x00000015
VTD vtscsi7
Status Defined
LUN 0x8100000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LC000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk13
Physloc U78DB.ND0.WZS02B8-P0-C7-T0-W500507680D76816F-LD000000000000
Mirrored false
vtscsi7 は Defined (定義済み) 状態です
- hdisk12 の確認
$ lsdev | grep hdis12
hdisk12 Available MPIO IBM 2076 FC Disk
hdisk12 は Available (使用可能) 状態です。
VIOS#2
VIOS 2号機で実行します。
$ hostname
p1002v
- 対象 vtscsi7 の状態を確認
$ lsdev | grep vtscsi7
vtscsi7 Available Virtual Target Device - Disk
vtscsi7 は Available(使用可能)状態です。
- vhost13 の事前確認
$ lsmap -vadapter vhost13
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost13 U9105.41B.785CA21-V2-C20 0x00000015
VTD vtscsi7
Status Available
LUN 0x8100000000000000
Backing device hdisk11
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LB000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LC000000000000
Mirrored false
vtscsi7 は Available(使用可能)状態です。
vtscsi7 の構成解除を実行
$ rmdev -dev vtscsi7 -ucfg
vtscsi7 Defined
$ echo $?
0
$ lsdev | grep vtscsi7
vtscsi7 Defined Virtual Target Device - Disk
vtscsi7 は Defined (定義済み) 状態です
vhost13 を確認
$ lsmap -vadapter vhost13
SVSA Physloc Client Partition ID
--------------- -------------------------------------------- ------------------
vhost13 U9105.41B.785CA21-V2-C20 0x00000015
VTD vtscsi7
Status Defined
LUN 0x8100000000000000
Backing device hdisk11
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LB000000000000
Mirrored false
VTD vtscsi8
Status Available
LUN 0x8200000000000000
Backing device hdisk12
Physloc U78DB.ND0.WZS02B8-P0-C8-T1-W500507680D76816F-LC000000000000
Mirrored false
vtscsi7 は Defined (定義済み) 状態です
AIX上のエラー状態の確認
- errpt 確認
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
EAA3D429 0211032224 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032224 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032224 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032224 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032224 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211032124 U S LVDD PHYSICAL PARTITION MARKED STALE
F7DDA124 0211032124 U H LVDD PHYSICAL VOLUME DECLARED MISSING
52715FA5 0211032124 U H LVDD FAILED TO WRITE VOLUME GROUP STATUS AREA
E86653C3 0211032124 P H LVDD I/O ERROR DETECTED BY LVM
C62E1EB7 0211032124 P H hdisk0 DISK OPERATION ERROR
E86653C3 0211032124 P H LVDD I/O ERROR DETECTED BY LVM
EAA3D429 0211032124 U S LVDD PHYSICAL PARTITION MARKED STALE
E86653C3 0211032124 P H LVDD I/O ERROR DETECTED BY LVM
C62E1EB7 0211032124 P H hdisk0 DISK OPERATION ERROR
C62E1EB7 0211032124 P H hdisk0 DISK OPERATION ERROR
DE3B8540 0211031824 P H hdisk0 PATH HAS FAILED
F31FFAC3 0211031624 I H hdisk0 PATH HAS RECOVERED
DCB47997 0211031524 T H hdisk0 DISK OPERATION ERROR
DE3B8540 0211031524 P H hdisk0 PATH HAS FAILED
hdisk0 、I/O、 PHISICAL PARTITIONなどの関連のエラーが出力されています。
- errpt 詳細内容の一例
# errpt -aj EAA3D429
---------------------------------------------------------------------------
LABEL: LVM_SA_STALEPP
IDENTIFIER: EAA3D429
Date/Time: Sun Feb 11 03:22:25 CST 2024
Sequence Number: 208
Machine Id: 00C5CA214B00
Node Id: aixtest0210
Class: S
Type: UNKN
WPAR: Global
Resource Name: LVDD
Description
PHYSICAL PARTITION MARKED STALE
Detail Data
PHYSICAL VOLUME DEVICE MAJOR/MINOR
8000 000D 0000 0000
PHYSICAL PARTITION NUMBER (DECIMAL)
288
LOGICAL VOLUME DEVICE MAJOR/MINOR
8000 000A 0000 0005
SENSE DATA
00C5 CA21 0000 4B00 0000 018D 9297 E0F4 00C5 CA21 9297 E13E 0000 0000 0000 0000
---------------------------------------------------------------------------
# errpt -aj C62E1EB7
---------------------------------------------------------------------------
LABEL: SC_DISK_ERR3
IDENTIFIER: C62E1EB7
Date/Time: Sun Feb 11 03:21:25 CST 2024
Sequence Number: 196
Machine Id: 00C5CA214B00
Node Id: aixtest0210
Class: H
Type: PERM
WPAR: Global
Resource Name: hdisk0
Resource Class: disk
Resource Type: vdisk
Location: U9105.41B.785CA21-V21-C2-T0-L8100000000000000
Description
DISK OPERATION ERROR
Probable Causes
DASD DEVICE
STORAGE DEVICE CABLE
Failure Causes
DISK DRIVE
DISK DRIVE ELECTRONICS
STORAGE DEVICE CABLE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
PATH ID
1
SENSE DATA
0A00 2E00 0000 0080 0000 0804 0000 0000 0000 0000 0000 0000 0200 0400 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 002F 000C 8A40 0000 0000 0000 0000 0000 0000 0000 0083 0000
0012 0034 0017 FFFF FFFF 0101 0000 0204 0000 0105 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000
---------------------------------------------------------------------------
- rootvg の確認
# lsvg rootvg
VOLUME GROUP: rootvg VG IDENTIFIER: 00c5ca2100004b000000018d9297e0f4
VG STATE: active PP SIZE: 32 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 1438 (46016 megabytes)
MAX LVs: 256 FREE PPs: 876 (28032 megabytes)
LVs: 13 USED PPs: 562 (17984 megabytes)
OPEN LVs: 12 QUORUM: 1 (Disabled)
TOTAL PVs: 2 VG DESCRIPTORS: 3
STALE PVs: 1 STALE PPs: 10
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per VG: 32512
MAX PPs per PV: 1016 MAX PVs: 32
LTG size (Dynamic): 256 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable
PV RESTRICTION: none INFINITE RETRY: no
DISK BLOCK SIZE: 512 CRITICAL VG: no
FS SYNC OPTION: no CRITICAL PVs: no
ENCRYPTION: yes
VG state は Active です。
STALE PPs が 10 と出ています。
- rootvg の LV確認
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/syncd N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/stale N/A
hd4 jfs2 32 64 2 open/stale /
hd2 jfs2 107 214 2 open/stale /usr
hd9var jfs2 6 12 2 open/stale /var
hd3 jfs2 8 16 2 open/stale /tmp
hd1 jfs2 1 2 2 open/syncd /home
hd10opt jfs2 64 128 2 open/syncd /opt
hd11admin jfs2 4 8 2 open/syncd /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/syncd /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 open/syncd N/A
一部のLVが open/stale 状態です。
ダンプデバイスやpaging デバイス以外のLVで stale となる想定ですが、まだOS認識が間に合っていないものと思われます。
-> リブートを行わず、1日程度様子を見たところでも STALE PPs は 18 程度でopen/syncd のままのLVも存在していました。ディスク・アクセスが発生しない場合では認識しないのかも知れません。
- パスの確認
# lspath
Failed hdisk0 vscsi0
Enabled hdisk1 vscsi0
Enabled hdisk0 vscsi1
Enabled hdisk1 vscsi1
hdisk0 の vscsi0 が Failed です。
vscsi1 も Failed となる想定ですが、まだOS認識が間に合っていないものと思われます。
- hdisk1 のみで起動するかどうかの確認
リブートを実行
# shutdown -Fr
SHUTDOWN PROGRAM
Sun Feb 11 03:30:21 CST 2024
Running /etc/rc.d/rc2.d/Ksshd stop
0513-044 The sshd Subsystem was requested to stop.
Running /etc/rc.d/rc2.d/Kwpars stop
Running /etc/rc.d/rc3.d/Ksoed stop
Wait for 'Rebooting...' before stopping.
Error logging stopped...
Advanced Accounting has stopped...
Process accounting stopped...
Stopping NFS/NIS Daemons
0513-004 The Subsystem or Group, nfsd, is currently inoperative.
0513-044 The biod Subsystem was requested to stop.
0513-044 The rpc.lockd Subsystem was requested to stop.
0513-004 The Subsystem or Group, rpc.statd, is currently inoperative.
0513-004 The Subsystem or Group, gssd, is currently inoperative.
0513-004 The Subsystem or Group, nfsrgyd, is currently inoperative.
0513-004 The Subsystem or Group, rpc.mountd, is currently inoperative.
0513-004 The Subsystem or Group, ypbind, is currently inoperative.
Stopping TCP/IP daemons: ndpd-host lpd routed gated sendmail inetd named timed rwhod iptrace dpid2 snmpd rshd rlogind telnetd syslogd
Removing TCP/IP lock files
0513-044 The snmpmibd Subsystem was requested to stop.
0513-044 The hostmibd Subsystem was requested to stop.
0513-044 The aixmibd Subsystem was requested to stop.
0513-044 The aso Subsystem was requested to stop.
0513-044 The qdaemon Subsystem was requested to stop.
0513-044 The writesrv Subsystem was requested to stop.
0513-044 The clcomd Subsystem was requested to stop.
0513-044 The pfcdaemon Subsystem was requested to stop.
0513-044 The lldpd Subsystem was requested to stop.
0513-044 The ecpvdpd Subsystem was requested to stop.
0513-044 The ctrmc Subsystem was requested to stop.
0513-044 The IBM.HostRM Subsystem was requested to stop.
0513-044 The IBM.DRM Subsystem was requested to stop.
0513-044 The IBM.ConfigRM Subsystem was requested to stop.
0513-044 The IBM.MgmtDomainRM Subsystem was requested to stop.
0513-044 The IBM.ServiceRM Subsystem was requested to stop.
All processes currently running will now be killed...
Unmounting the file systems...
Unmounting the file systems...
Bringing down network interfaces: en0 lo0
Feb 11 03:30:43 portmap: terminating on signal.
Rebooting . . .
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
1 = SMS Menu 5 = Default Boot List
9 = Restricted Open Firmware Prompt 6 = Stored Boot List
Memory Keyboard Network Speaker
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM STARTING SOFTWARE IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM PLEASE WAIT... IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM IBM
\
Elapsed time since release of system processors: 160229 mins 49 secs
-------------------------------------------------------------------------------
Welcome to AIX.
boot image timestamp: 06:32:07 07/26/2023
The current time and date: 09:31:36 02/11/2024
processor count: 1; memory size: 4096MB; kernel size: 57984672
boot device: /vdevice/v-scsi@30000002/disk@8200000000000000:2
-------------------------------------------------------------------------------
Saving Base Customize Data to boot disk
Starting the sync daemon
Starting the error daemon
System initialization completed.
TE=OFF
SIG_VER=OFF
CHKEXEC=OFF
CHKSHLIB=OFF
CHKSCRIPT=OFF
CHKKERNEXT=OFF
STOP_UNTRUSTD=OFF
STOP_ON_CHKFAIL=OFF
LOCK_KERN_POLICIES=OFF
TSD_FILES_LOCK=OFF
TSD_LOCK=OFF
TEP=OFF
TLP=OFF
Successfully updated the Kernel Authorization Table.
Successfully updated the Kernel Role Table.
Successfully updated the Kernel Command Table.
Successfully updated the Kernel Device Table.
Successfully updated the Kernel Object Domain Table.
Successfully updated the Kernel Domains Table.
Successfully updated the Kernel RBAC log level.
Successfully updated the Kernel RBAC log level.
OPERATIONAL MODE Security Flags
ROOT : ENABLED
TRACEAUTH : DISABLED
System runtime mode is now OPERATIONAL MODE.
Setting tunable parameters...complete
Starting Multi-user Initialization
Performing auto-varyon of Volume Groups
Activating all paging spaces
swapon: Paging device /dev/hd6 is already active.
The current volume is: /dev/hd1
Primary superblock is valid.
The current volume is: /dev/hd10opt
Primary superblock is valid.
Performing all automatic mounts
mount: /dev/repo00 on /usr/sys/inst.images: No such file or directory
Multi-user initialization completed
Checking for srcmstr active...complete
Starting tcpip daemons:
0513-059 The syslogd Subsystem has been started. Subsystem PID is 5767634.
0513-059 The sendmail Subsystem has been started. Subsystem PID is 6357462.
0513-059 The portmap Subsystem has been started. Subsystem PID is 5702130.
0513-059 The inetd Subsystem has been started. Subsystem PID is 5833196.
0513-059 The snmpd Subsystem has been started. Subsystem PID is 7864600.
0513-059 The hostmibd Subsystem has been started. Subsystem PID is 5374408.
0513-059 The snmpmibd Subsystem has been started. Subsystem PID is 6226386.
0513-059 The aixmibd Subsystem has been started. Subsystem PID is 7930112.
Finished starting tcpip daemons.
Starting NFS services:
0513-059 The biod Subsystem has been started. Subsystem PID is 4653476.
0513-059 The rpc.statd Subsystem has been started. Subsystem PID is 3408348.
statd -a can't get ip configuration
: No such file or directory
0513-059 The rpc.lockd Subsystem has been started. Subsystem PID is 2556266.
statd -a can't get ip configuration
: No such file or directory
statd -a can't get ip configuration
: No such file or directory
Completed NFS services.
AIX Version 7
Copyright IBM Corporation, 1982, 2021.
Console login: 0513-059 The lldpd Subsystem has been started. Subsystem PID is 2949500.
0513-059 The ecpvdpd Subsystem has been started. Subsystem PID is 3015054.
AIX Version 7
Copyright IBM Corporation, 1982, 2021.
Console login:
リブート後、ログインできました。
# lspv
hdisk1 00c5ca219297e118 rootvg active
ディスクは hdisk1 のみの認識となっています。
# lsvg rootvg
VOLUME GROUP: rootvg VG IDENTIFIER: 00c5ca2100004b000000018d9297e0f4
VG STATE: active PP SIZE: 32 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 1438 (46016 megabytes)
MAX LVs: 256 FREE PPs: 876 (28032 megabytes)
LVs: 13 USED PPs: 562 (17984 megabytes)
OPEN LVs: 11 QUORUM: 1 (Disabled)
TOTAL PVs: 2 VG DESCRIPTORS: 3
STALE PVs: 1 STALE PPs: 65
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per VG: 32512
MAX PPs per PV: 1016 MAX PVs: 32
LTG size (Dynamic): 128 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable
PV RESTRICTION: none INFINITE RETRY: no
DISK BLOCK SIZE: 512 CRITICAL VG: no
FS SYNC OPTION: no CRITICAL PVs: no
ENCRYPTION: yes
STALE PPs が 65 となっています。
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/stale N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/stale N/A
hd4 jfs2 32 64 2 open/stale /
hd2 jfs2 107 214 2 open/stale /usr
hd9var jfs2 6 12 2 open/stale /var
hd3 jfs2 8 16 2 open/stale /tmp
hd1 jfs2 1 2 2 open/stale /home
hd10opt jfs2 64 128 2 open/stale /opt
hd11admin jfs2 4 8 2 open/stale /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/stale /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 closed/syncd N/A
LV は paging 以外が open/stale となりました。
hdisk0 にあった lg_dumplv2 は closed/syncd となっています。
* パスの確認
# lspath
Missing hdisk0 vscsi0
Enabled hdisk1 vscsi0
Missing hdisk0 vscsi1
Enabled hdisk1 vscsi1
hdisk0 の定義は残っていますが、パスは Missing 状態です。
* リブート時の errpt を確認
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
EAA3D429 0211033624 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033624 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033624 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033524 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033524 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033524 U S LVDD PHYSICAL PARTITION MARKED STALE
A6D1BD62 0211033324 I H unspecified Firmware Event
A6D1BD62 0211033324 I H unspecified Firmware Event
EAA3D429 0211033324 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033324 U S LVDD PHYSICAL PARTITION MARKED STALE
DE84C4DB 0211033224 I O ConfigRM IBM.ConfigRM daemon has started.
A6DF45AA 0211033224 I O RMCdaemon The daemon is started.
1BA7DF4E 0211033224 P S SRC SOFTWARE PROGRAM ERROR
CB4A951F 0211033224 I S SRC SOFTWARE PROGRAM ERROR
CB4A951F 0211033224 I S SRC SOFTWARE PROGRAM ERROR
EAA3D429 0211033224 U S LVDD PHYSICAL PARTITION MARKED STALE
3CACA614 0211033124 I O sys0 Partition boot reason.
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
EAA3D429 0211033124 U S LVDD PHYSICAL PARTITION MARKED STALE
078BA0EB 0211033124 I S LIBLVM Forced activation of a volume group.
69350832 0211033124 T S SYSPROC SYSTEM SHUTDOWN BY USER
9DBCFDEE 0211033224 T O errdemon ERROR LOGGING TURNED ON
192AC071 0211033024 T O errdemon ERROR LOGGING TURNED OFF
Firmware イベントも出ています。
# errpt -aj A6D1BD62
---------------------------------------------------------------------------
LABEL: FIRMWARE_EVENT
IDENTIFIER: A6D1BD62
Date/Time: Sun Feb 11 03:33:56 CST 2024
Sequence Number: 244
Machine Id: 00C5CA214B00
Node Id: aixtest0210
Class: H
Type: INFO
WPAR: Global
Resource Name: unspecified
Resource Class: NONE
Resource Type: NONE
Location:
Description
Firmware Event
Detail Data
Event Information
0624 00E2 0000 0158 8600 8E00 0000 0000 0000 0000 4942 4D00 5048 0030 0100 A000
2024 0211 0931 2700 2024 0211 0927 4650 4C00 0005 0000 0EC3 0000 0000 0000 0000
8399 CAC9 5000 0398 5548 0018 0100 A000 8301 0001 0000 0000 0000 2000 0000 0002
5053 008C 0100 A000 0201 0001 0000 0084 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 4241 3132 3030 3035 2020 2020 2020 2020
2020 2020 2020 2020 2020 2020 2020 2020 C000 000F 3828 4830 5539 3130 352E 3431
422E 3738 3543 4132 312D 5632 312D 4333 2D54 302D 4C38 3130 3030 3030 3030 3030
3030 3030 3000 0000 4944 0410 4548 0058 0100 A000 3931 3035 2D34 3142 3738 3543
4132 3100 0000 0000 4D4C 3130 3330 5F30 3435 0000 0000 0000 6232 3330 3130 3661
2E70 6677 3130 3330 0000 0000 0000 0000 0000 0000 0000 000C 4241 3132 3030 3035
0000 0000 4D54 001C 0100 A000 3931 3035 2D34 3142 3738 3543 4132 3100 0000 0000
Diagnostic Analysis
Diagnostic Log sequence number: 21
Resource tested: sysplanar0
Menu Number: 651303
Description:
The following informational event was reported by Platform Firmware.
Platform Firmware Miscellaneous, Information Only.
Supporting data:
SRC: BA120005
Additional Words: 2-00000000 3-00000000 4-00000000 5-00000000
6-00000000 7-00000000 8-00000000 9-00000000
Priority: H
Location: U9105.41B.785CA21-V21-C3-T0-L8100000000000000
PV が使用可能ではない旨のエラーも出力されています。
# errpt -aj 078BA0EB
---------------------------------------------------------------------------
LABEL: LVM_FORCEVARYON
IDENTIFIER: 078BA0EB
Date/Time: Sun Feb 11 03:31:49 CST 2024
Sequence Number: 218
Machine Id: 00C5CA214B00
Node Id: aixtest0210
Class: S
Type: INFO
WPAR: Global
Resource Name: LIBLVM
Description
Forced activation of a volume group.
Probable Causes
One or more physical volumes are not available
Detail Data
MAJOR/MINOR DEVICE NUMBER
000A 0000
SENSE DATA
00C5 CA21 0000 4B00 0000 018D 9297 E0F4 0000 0000 0000 0000 0000 0000 0000 0000
#
片系状態ですが、OSは稼働していることが確認できました。
後は載せているMW、アプリなどがあれば確認することがテストケースとしては望ましいと思います。
回復手順
VIOS#1、VIOS#2 で定義済み状態の vtscsi7 を使用可能状態に戻します。
- VIOS#1(p1001v) で実行
$ lsdev | grep vtscsi7
vtscsi7 Defined Virtual Target Device - Disk
$
$ cfgdev
$ lsdev | grep vtscsi7
vtscsi7 Available Virtual Target Device - Disk
- VIOS#2(p1002v) で実行
$ lsdev | grep vtscsi7
vtscsi7 Defined Virtual Target Device - Disk
$ cfgdev
$ lsdev | grep vtscsi7
vtscsi7 Available Virtual Target Device - Disk
- AIX 上で確認
# lspv
hdisk1 00c5ca219297e118 rootvg active
デバイスの再認識を実行
# cfgmgr
hdisk0 00c5ca219297e13e rootvg active
hdisk1 00c5ca219297e118 rootvg active
hdisk0 が戻ってきました。
# lspath
Enabled hdisk0 vscsi0
Enabled hdisk1 vscsi0
Enabled hdisk0 vscsi1
Enabled hdisk1 vscsi1
パスも Enabled 状態です。
# lsvg rootvg
VOLUME GROUP: rootvg VG IDENTIFIER: 00c5ca2100004b000000018d9297e0f4
VG STATE: active PP SIZE: 32 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 1438 (46016 megabytes)
MAX LVs: 256 FREE PPs: 876 (28032 megabytes)
LVs: 13 USED PPs: 562 (17984 megabytes)
OPEN LVs: 11 QUORUM: 1 (Disabled)
TOTAL PVs: 2 VG DESCRIPTORS: 3
STALE PVs: 1 STALE PPs: 71
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per VG: 32512
MAX PPs per PV: 1016 MAX PVs: 32
LTG size (Dynamic): 128 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable
PV RESTRICTION: none INFINITE RETRY: no
DISK BLOCK SIZE: 512 CRITICAL VG: no
FS SYNC OPTION: no CRITICAL PVs: no
ENCRYPTION: yes
#
VG は STALE PPs 71 です。
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/stale N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/stale N/A
hd4 jfs2 32 64 2 open/stale /
hd2 jfs2 107 214 2 open/stale /usr
hd9var jfs2 6 12 2 open/stale /var
hd3 jfs2 8 16 2 open/stale /tmp
hd1 jfs2 1 2 2 open/stale /home
hd10opt jfs2 64 128 2 open/stale /opt
hd11admin jfs2 4 8 2 open/stale /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/stale /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 closed/syncd N/A
LV でもまだ open/stale 状態があります。
errpt に追加で出力されたメッセージはありませんでした。
リブートしてみます。
# lspv
hdisk0 00c5ca219297e13e rootvg active
hdisk1 00c5ca219297e118 rootvg active
hdisk0,hdisk1 が見えています。
# lsvg rootvg
VOLUME GROUP: rootvg VG IDENTIFIER: 00c5ca2100004b000000018d9297e0f4
VG STATE: active PP SIZE: 32 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 1438 (46016 megabytes)
MAX LVs: 256 FREE PPs: 876 (28032 megabytes)
LVs: 13 USED PPs: 562 (17984 megabytes)
OPEN LVs: 12 QUORUM: 1 (Disabled)
TOTAL PVs: 2 VG DESCRIPTORS: 3
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 2 AUTO ON: yes
MAX PPs per VG: 32512
MAX PPs per PV: 1016 MAX PVs: 32
LTG size (Dynamic): 256 kilobyte(s) AUTO SYNC: no
HOT SPARE: no BB POLICY: relocatable
PV RESTRICTION: none INFINITE RETRY: no
DISK BLOCK SIZE: 512 CRITICAL VG: no
FS SYNC OPTION: no CRITICAL PVs: no
ENCRYPTION: yes
STALE PPs は 0 になりました。
# lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 2 4 2 closed/syncd N/A
hd6 paging 16 32 2 open/syncd N/A
hd8 jfs2log 1 2 2 open/syncd N/A
hd4 jfs2 32 64 2 open/syncd /
hd2 jfs2 107 214 2 open/syncd /usr
hd9var jfs2 6 12 2 open/syncd /var
hd3 jfs2 8 16 2 open/syncd /tmp
hd1 jfs2 1 2 2 open/syncd /home
hd10opt jfs2 64 128 2 open/syncd /opt
hd11admin jfs2 4 8 2 open/syncd /admin
lg_dumplv sysdump 32 32 1 open/syncd N/A
livedump jfs2 8 16 2 open/syncd /var/adm/ras/livedump
lg_dumplv2 sysdump 32 32 1 open/syncd N/A
LV でstale 状態は解消されています。
# lspath
Enabled hdisk0 vscsi0
Enabled hdisk1 vscsi0
Enabled hdisk0 vscsi1
Enabled hdisk1 vscsi1
おわりに
今回は VIOSの vscsi 構成を前提として擬似障害を発生させていました。
片方の hdisk が認識できない状態でも、ミラーリング構成よりOSは稼働を続けられていることが確認できました。
VIOS で NPIV 構成の場合は、対象のアダプターの削除、構成解除が考えられると思います。
AIX のrootvg ミラーリングに関連する内容は以下で記載しています。
ご参考まで、以上です。