LoginSignup
0
0

More than 5 years have passed since last update.

5インチベイ用SSDマウンタが壊れる兆候

Posted at

5インチベイ用SSDマウンタが故障しました。(兆候から壊れるまで半日ほど)
その兆候について書きます。

不穏な行を含むLogwatch

対象のサーバーはLogwatchにより毎日ログのまとめが送られてきます。
そこに以下のような不穏な行が含まれています。

Logwatch for ***(Linux)

 --------------------- Kernel Begin ------------------------

 WARNING:  Kernel Errors Present
    ata7.00: cmd 60/00:50:88:d8:ae/01:00:3e:00:00/40 tag 10 ncq 131072 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:78:88:da:ae/01:00:3e:00:00/40 tag 15 ncq 131072 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:80:88:db:ae/02:00:3e:00:00/40 tag 16 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:88:88:dd:ae/02:00:3e:00:00/40 tag 17 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:90:88:df:ae/02:00:3e:00:00/40 tag 18 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:98:88:e1:ae/02:00:3e:00:00/40 tag 19 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:a0:88:e3:ae/02:00:3e:00:00/40 tag 20 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/00:a8:88:e5:ae/02:00:3e:00:00/40 tag 21 ncq 262144 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/08:58:c0:d9:ae/00:00:3e:00:00/40 tag 11 ncq 4096 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/08:70:c8:d9:ae/00:00:3e:00:00/40 tag 14 ncq 4096 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/38:68:88:d9:ae/00:00:3e:00:00/40 tag 13 ncq 28672 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: cmd 60/b8:60:d0:d9:ae/00:00:3e:00:00/40 tag 12 ncq 94208 in#012         res 50/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x10 (ATA bus error) ...:  1 Time(s)
    ata7.00: irq_stat 0x08000008, interface fatal error ...:  1 Time(s)
    ata7: SError: { BadCRC } ...:  1 Time(s)

 ---------------------- Kernel End -------------------------

ATA bus errorという文字列がやけに引っかかります。

messagesを読む

/var/log/messagesを読むと上記のような行が頻繁に含まれていました。

それとは別に、どうやらSSDマウンタに接続しているSSDすべてが故障しかけているかのようなログが出力されていました。
最初は、SSDの故障を疑いましたが、同時に2台のSSDが故障するのは希であるため、SSDマウンタの故障と考えました。

壊れる

バックアップは事前にとっていますが、最新の状況を残したいと思います。
そこで、rsyncで転送を試みますが、ファイル読み込みエラーが発生します。

また、ファイルを作成しようとtouch testなど実行しても、ファイル書き込みエラーが発生します。

はい、壊れました

動作が怪しくなり、故障するまで約半日でした。

ちなみに、SSDはマウンタを経由せずに直接接続すると、普通に動作しました。
ファイルシステムのチェックなどはしたほうが良いです。

その他のWarning

Buffer I/O error on device sdh, l ...:  11 Time(s)
Buffer I/O error on device sdh1,  ...:  18 Time(s)
Buffer I/O error on device sdh2,  ...:  3 Time(s)

EXT4-fs (sdh1): Delayed block allocation failed for inode 7478484 at logical offset 1243029 with max blocks 1 with error 30 ...:  1 Time(s)
EXT4-fs (sdh1): I/O error while writing su ...:  1 Time(s)
EXT4-fs (sdh1): previous I/O error to superblock de ...:  3 Time(s)
EXT4-fs (sdh2): previous I/O error to superblock de ...:  1 Time(s)
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0