事象
NICに負荷がかかったタイミング?でsyslogにDetected Hardware Unit Hang
というメッセージが表示され、ひどいとハードリブートが必要になる。軽いとNICがリセットされて復活している?
誤検知という情報もあるが、古いハードウェアでは問題なかったが、性能が上がった最近のマシンではCPUがNICを圧倒してこの問題が起きているという可能性もありそう。
対応
TSO(TCP Segmentation Offload)を無効にすると良いらしい。
それだけではうまく行かなかった場合に、プラスアルファで~という情報もあり。
$ sudo ethtool -K eth0 tso off
$ sudo ethtool -K eth0 rx off tx off tso off gso off
永続的に無効にするにはこの辺が参考になりそうかな(まだ試してない)
Ubuntu – How to permanently disable TSO & GSO in Ubuntu 18.04
参考
e1000e eno1: Detected Hardware Unit Hang:
Detected hardware unit hang