この記事の目的
2020年10月1日に発生した東証システム障害に関して、同様の障害が発生した際に機器がどのような挙動をするか興味があり、本記事を投稿しました。
※ITインフラの知識がないため不正確かもしれません。調べるべき点が他にありましたらコメントに記載いただければ幸いです。
確認方法
今回障害要因となったFujitsu ETERNUS NR1000Fと互換性のあるNAS(NetApp FASシリーズ)の旧機種を中古で入手し、意図的にカーネルパニックを発生させることで確認しました。中古とあって搭載されているONTAPのバージョンも8.2.5(7-mode)と古いですが挙動確認自体には問題はないと考えています。
機器の設定内容
機器名や設定内容は以下の通りです。
機器名:NetApp FAS2220(1シャーシ、2コントローラー)
コントローラAホスト名:netapp
コントローラBホスト名:netapp2
搭載ONTAPバージョン:8.2.5(7-mode)
※コントローラ間をSASケーブルとインターコネクト用LANケーブルで接続しHA-PAIR設定を有効にした状態
- HA-PAIRの設定内容(takeover以外の設定内容は省略)
netapp2> options cf
・・・
cf.takeover.on_panic on
確認結果
コントローラーA(netapp)に対して意図的にカーネルパニックを発生させた後にコントローラーB(netapp2)で取得したログです。(フェイルオーバーに関係のない部分のログは省略しています)
Sun Nov 8 22:01:05 JST [netapp2:cf.fsm.takeoverByPartnerDisabled:error]: Failover monitor: takeover of netapp2 by netapp disabled (unsynchronized log).
Sun Nov 8 22:01:06 JST [netapp2:scsitarget.vtic.down:notice]: The VTIC is down.
Sun Nov 8 22:01:06 JST [netapp2:cf.fsm.partnerNotResponding:notice]: Failover monitor: partner not responding
Sun Nov 8 22:01:06 JST [netapp2:cf.fsm.takeover.panic:ALERT]: Failover monitor: takeover attempted after partner panic
Sun Nov 8 22:01:06 JST [netapp2:cf.fm.takeoverStarted:notice]: Failover monitor: takeover started
・・・
Sun Nov 8 22:01:17 JST [netapp2:cf.fm.takeoverComplete:notice]: Failover monitor: takeover completed
netapp2(takeover)> cf status
netapp2 has taken over netapp.
正常にコントローラーB(netapp2)に切り替わったことが確認できました。
そこで、東証のシステム障害と同様にpanic時のフェイルオーバーを無効に設定し再度コントローラーA(netapp)でカーネルパニックを発生させてみます。
- HA-PAIRの設定内容(takeover以外の設定内容は省略)
> options cf
・・・
cf.takeover.on_panic off
- カーネルパニックを発生させた後のコントローラーB(netapp2)で取得したログ
Sun Nov 8 22:29:37 JST [netapp2:cf.fsm.takeoverByPartnerDisabled:error]: Failover monitor: takeover of netapp2 by netapp disabled (unsynchronized log).
Sun Nov 8 22:29:38 JST [netapp2:cf.fsm.partnerNotResponding:notice]: Failover monitor: partner not responding
・・・
netapp2> cf status
netapp is down.
netapp2 has disabled takeover by netapp (unsynchronized log)
VIA Interconnect is up (link up).
コントローラA(netapp)が落ちたことは検知しているようですが、切り替えは当然行われません。
おそらくですが、東証のシステム障害でもこれに似たログが出ていたのだと思われます。
その他
もし皆さんに興味を持っていただけるのであれば、ONTAP7.xを搭載したFASシリーズでも同様の挙動確認を行ってみたいと思います。ご指摘や質問などありましたらコメントをお願い致します。