Posted at

e1000e Detected Hardware Unit Hang

More than 3 years have passed since last update.


e1000e Detected Hardware Unit Hang が発生した。


  • tenshiにて/var/log/messagesの監視をしていて検知。


dmesg

e1000e 0000:0a:00.1: eth3: Detected Hardware Unit Hang:

TDH <5c>
TDT <5e>
next_to_use <5e>
next_to_clean <5c>
buffer_info[next_to_clean]:
time_stamp <da13a6e5>
next_to_watch <5c>
jiffies <da13ac5f>
next_to_watch.status <0>
MAC Status <80387>
PHY Status <792d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>


  • nagiosにて検知なし


該当する事象


以下の様なエラーが頻出して、その都度ネットワークが再起動してしまう。



ethtoolインストール


ethtoolインストール

sudo yum install -y ethtool


$ sudo /usr/sbin/ethtool -k eth3

Offload parameters for eth3:
Cannot get device udp large send offload settings: Operation not supported
rx-checksumming: on
tx-checksumming: on
scatter-gather: on
tcp segmentation offload: on
udp fragmentation offload: off
generic segmentation offload: off
generic-receive-offload: off


上記の内、以下の項目がTSO関連の項目となる。これらがonの場合はTSOが動作している。

rx-checksumming: on

tx-checksumming: on

tcp-segmentation-offload: on


TSOが動作している様子。

様子を見て再発するようであればTSOを無効化しよう。