5インチベイ用SSDマウンタが故障しました。(兆候から壊れるまで半日ほど)
その兆候について書きます。
不穏な行を含むLogwatch
対象のサーバーはLogwatchにより毎日ログのまとめが送られてきます。
そこに以下のような不穏な行が含まれています。
Logwatch for ***(Linux)
--------------------- Kernel Begin ------------------------
WARNING: Kernel Errors Present
ata7.00: cmd 60/00:50:88:d8:ae/01:00:3e:00:00/40 tag 10 ncq 131072 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:78:88:da:ae/01:00:3e:00:00/40 tag 15 ncq 131072 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:80:88:db:ae/02:00:3e:00:00/40 tag 16 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:88:88:dd:ae/02:00:3e:00:00/40 tag 17 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:90:88:df:ae/02:00:3e:00:00/40 tag 18 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:98:88:e1:ae/02:00:3e:00:00/40 tag 19 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:a0:88:e3:ae/02:00:3e:00:00/40 tag 20 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/00:a8:88:e5:ae/02:00:3e:00:00/40 tag 21 ncq 262144 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/08:58:c0:d9:ae/00:00:3e:00:00/40 tag 11 ncq 4096 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/08:70:c8:d9:ae/00:00:3e:00:00/40 tag 14 ncq 4096 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/38:68:88:d9:ae/00:00:3e:00:00/40 tag 13 ncq 28672 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: cmd 60/b8:60:d0:d9:ae/00:00:3e:00:00/40 tag 12 ncq 94208 in#012 res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...: 1 Time(s)
ata7.00: irq_stat 0x08000008, interface fatal error ...: 1 Time(s)
ata7: SError: { BadCRC } ...: 1 Time(s)
---------------------- Kernel End -------------------------
ATA bus errorという文字列がやけに引っかかります。
messagesを読む
/var/log/messages
を読むと上記のような行が頻繁に含まれていました。
それとは別に、どうやらSSDマウンタに接続しているSSDすべてが故障しかけているかのようなログが出力されていました。
最初は、SSDの故障を疑いましたが、同時に2台のSSDが故障するのは希であるため、SSDマウンタの故障と考えました。
壊れる
バックアップは事前にとっていますが、最新の状況を残したいと思います。
そこで、rsync
で転送を試みますが、ファイル読み込みエラーが発生します。
また、ファイルを作成しようとtouch test
など実行しても、ファイル書き込みエラーが発生します。
はい、壊れました
動作が怪しくなり、故障するまで約半日でした。
ちなみに、SSDはマウンタを経由せずに直接接続すると、普通に動作しました。
ファイルシステムのチェックなどはしたほうが良いです。
その他のWarning
Buffer I/O error on device sdh, l ...: 11 Time(s)
Buffer I/O error on device sdh1, ...: 18 Time(s)
Buffer I/O error on device sdh2, ...: 3 Time(s)
EXT4-fs (sdh1): Delayed block allocation failed for inode 7478484 at logical offset 1243029 with max blocks 1 with error 30 ...: 1 Time(s)
EXT4-fs (sdh1): I/O error while writing su ...: 1 Time(s)
EXT4-fs (sdh1): previous I/O error to superblock de ...: 3 Time(s)
EXT4-fs (sdh2): previous I/O error to superblock de ...: 1 Time(s)