プログラミングとは関係ありませんが、影響範囲が非常に大きいと思われる情報なので、備忘も兼ねて記事を投稿します。
はじめに
本稿はあくまで備忘であり、この内容により受けた問題に対して責任は負いかねますのであらかじめご了承ください。
最初は「PC Watch」というサイトで情報を見つけたもので、HPE から出された、SAS SSD のファームウェアに関する重大な修正情報でした。
HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可
⇒ページ内に HPE (Hewlett Packard Enterprise) から出されている以下の文書へのリンクがあります。
HPEサポート文書
問題の内容
HPE 製のサーバやストレージ製品に使用されている特定の SAS SSD において、稼働時間が 32,768 時間 (おおよそ3年270日8時間) を超えると、その SSD に障害が発生して SSD 上のデータが復旧できなくなるというものです。
具体的には、「HPD8」より前のファームウェアを使用している SSD で発生するとのことです。
つまり、普通に使って稼働時間が 32,768 時間を超えると、自動的にデータが吹っ飛んでしまうというものです。
原因
「HPD8」より前のファームウェアの不具合に起因します。
具体的な原因は PC Watch に以下のように記載されていたものの、HPE のサポート文書には記載がなかったため、100% 確実な情報かは判断できませんでした。
32,768は16bitの整数型で負から正まで扱える範囲の最大値を1つ超える数値であり、これに関連した不具合と見られる。
この内容だと、連続 32,768 時間稼動で問題が発生するようにも見えますが、HPEサポート文書には「連続」か「累積」かは明確に書かれていないので、実際にサポートに問い合わせた方が良いかもしれません。
ただ、内容的に OS の 497 日問題等と同じように見えるので、「連続稼働 32,768 時間」が条件となるような気がしています。
影響範囲
上述の HPE サポート文書の「影響のあるハードウェア プラットフォーム」に記載があります。
通常の ProLiant サーバや BL660c といったブレードサーバ等、物理サーバだけでなく仮想化ソフトを動かすことが可能なサーバも含まれるため、影響範囲は小さくはないと思われます。
非常にまずい影響の具体例としては、以下があるかと思われます。
-
シングル構成のサーバの場合
⇒データが吹っ飛んで、OS からの再構築になるかと思います。 -
同一サーバやストレージで RAID 構成を組んでいる場合
⇒起動が同タイミングであるため、RAID 構成の意味をなさないものとなります。 -
HA 構成等で両ノードを同時に起動していた場合
⇒両ノードが同時に停止する可能性があります。
-
問題の SAS SSD がバックアップデータの格納先の場合
⇒バックアップデータがすべて吹き飛びます。
回避策
**「連続稼働 32,768 時間」**という条件が正しい場合、サーバに限って言えば以下のようにしてシステム全停止を回避できるのではと考えていますが、サポートへの確認が必要になるかと思います。
-
シングル構成の場合、1 年に 1 回等、定期的に OS を再起動します。
-
HA 構成の場合、1ヶ月に 1 回交代で OS を再起動します。
⇒例えば、1 号機を奇数月、2 号機を偶数月に再起動する、といった具合です。 -
Oracle の RAC 環境の場合は、1 ノードの OS を順番に再起動します。
⇒3 ノード RAC の場合は ノード 1 を 1,4,7,10 月、ノード 2 を 2,5,8,11 月、ノード 3 を 3,6,9,12 月 に再起動する、といった具合です。
これらはメンテナンス日を設けるか、システムへのアクセスを営業時間外に止めることができるのが前提となります。
なお、ストレージ製品を定期的に再起動するというのはあまり聞いたことがないので、HA や Oracle の RAC 環境で問題の SSD を使用した共有ディスクを使用している場合の回避策は、思いつきませんでした。
最後に
ある意味時限爆弾のようなものなので、思い当たる場合は該当するのかを確認をした方がよいと考えます。
見れば見るほど、恐ろしい影響内容の不具合です。。