Linux

e1000e Detected Hardware Unit Hang

More than 3 years have passed since last update.

e1000e Detected Hardware Unit Hang が発生した。

  • tenshiにて/var/log/messagesの監視をしていて検知。
dmesg
e1000e 0000:0a:00.1: eth3: Detected Hardware Unit Hang:
 TDH                  <5c>
 TDT                  <5e>
 next_to_use          <5e>
 next_to_clean        <5c>
buffer_info[next_to_clean]:
 time_stamp           <da13a6e5>
 next_to_watch        <5c>
 jiffies              <da13ac5f>
 next_to_watch.status <0>
MAC Status             <80387>
PHY Status             <792d>
PHY 1000BASE-T Status  <3800>
PHY Extended Status    <3000>
PCI Status             <10>
  • nagiosにて検知なし

該当する事象

以下の様なエラーが頻出して、その都度ネットワークが再起動してしまう。

ethtoolインストール

ethtoolインストール
sudo yum install -y ethtool
$ sudo /usr/sbin/ethtool -k eth3
Offload parameters for eth3:
Cannot get device udp large send offload settings: Operation not supported
rx-checksumming: on
tx-checksumming: on
scatter-gather: on
tcp segmentation offload: on
udp fragmentation offload: off
generic segmentation offload: off
generic-receive-offload: off

上記の内、以下の項目がTSO関連の項目となる。これらがonの場合はTSOが動作している。
rx-checksumming: on
tx-checksumming: on
tcp-segmentation-offload: on

TSOが動作している様子。
様子を見て再発するようであればTSOを無効化しよう。