e1000e Detected Hardware Unit Hang が発生した。
- tenshiにて
/var/log/messages
の監視をしていて検知。
dmesg
e1000e 0000:0a:00.1: eth3: Detected Hardware Unit Hang:
TDH <5c>
TDT <5e>
next_to_use <5e>
next_to_clean <5c>
buffer_info[next_to_clean]:
time_stamp <da13a6e5>
next_to_watch <5c>
jiffies <da13ac5f>
next_to_watch.status <0>
MAC Status <80387>
PHY Status <792d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>
- nagiosにて検知なし
該当する事象
以下の様なエラーが頻出して、その都度ネットワークが再起動してしまう。
ethtoolインストール
ethtoolインストール
sudo yum install -y ethtool
$ sudo /usr/sbin/ethtool -k eth3
Offload parameters for eth3:
Cannot get device udp large send offload settings: Operation not supported
rx-checksumming: on
tx-checksumming: on
scatter-gather: on
tcp segmentation offload: on
udp fragmentation offload: off
generic segmentation offload: off
generic-receive-offload: off
上記の内、以下の項目がTSO関連の項目となる。これらがonの場合はTSOが動作している。
rx-checksumming: on
tx-checksumming: on
tcp-segmentation-offload: on
TSOが動作している様子。
様子を見て再発するようであればTSOを無効化しよう。