症状
HPCクラスターの計算ノードとして使っているAMD Opteronベースのマシンで、比較的メモリーを消費するソフトウェアを走らせていると、数時間後に一部のコアのloadが100%となり、一部のプロセスがフリーズする現象が起きた。解除にはリブートが必要で、非常にうっとうしいので対処法を調べてみた。
環境
- CPU: AMD Opteron Abu-Dhabi 6380 x4 (total 64-cores)
- RAM: 512Gbytes
- OS: Ubuntu 14.04 LTS (GNU/Linux 3.13.0-24-generic x86_64)
対処
# echo never > /sys/kernel/mm/transparent_hugepage/enabled
# echo never > /sys/kernel/mm/transparent_hugepage/defrag
これによりtransparent hugepage (THP)サポートを一時的に停止することができるらしい。実行した結果とりあえず問題は起きないようになった。これ以上の原因追及は行っていないが、上記環境とTHPサポートの相性はよろしくないようである。