IntelMPI 2021.10とQE7.2でメモリーエラー
まとめ
以下のようなエラーが出たらそれはメモリの限界
= BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
= RANK 31 PID 1078176 RUNNING AT pc~~~~~
= KILLED BY SIGNAL: 9 (Killed)
で、自分の場合その原因は
「IntelMPI 2021.10.0」と「QE7.2」の組み合わせで起きたバグ??で、
メモリ使用量が増え続けるというもの。
「IntelMPI 2021.10.0」と「QE6.8」では起きないことを確認。
経緯
ある時、かなり大きなセルのrelax計算をしていたら、
= BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
= RANK 31 PID 1078176 RUNNING AT pc~~~~~
= KILLED BY SIGNAL: 9 (Killed)
というエラーで計算が途中で落ちた。
geminiに聞くとそれはメモリの問題が多いという。
んなわけないと思いながら計算中top
で見張ると徐々にメモリ使用量が上がっていく。
relax計算は途中計算を引き継ぐ必要ないのでは??と思い、
調べてみると以下のような記事に遭遇。
他記事
IntelMPI 2021.10.0ですが、このバージョンではQE7.2では
バージョン特異的に問題が生じる事が判明しています。
動作自体はIntelMPI 2021.10.0で可能ですが、異常にメモリを使用してしまいます。
他のバージョンのIntelMPI ではこうした問題が起きない事を確認し、
IntelMPI 2021.10.0でのみ起きる現象である事を確認しました。
この問題を回避する為、IntelMPI 2021.9.0 を同梱して、
これを用いてビルドし、動作に異常が無い事を確認してあります。
「IntelMPI 2021.10.0」と「QE6.8」の組み合わせの他パソコンで同様の計算をすると、
メモリ使用量はほぼ一定であまり使わなかった。
PC自体が変わっているので、これが明確に原因とは決められないが、一例として。