動作環境
Xeon E5-2620 v4 (8コア) x 2
32GB RAM
GeForce GT 730 1GB GDDR5
CentOS 6.8 (64bit)
NCAR Command Language Version 6.3.0
for WRF3.7.1, WPS3.7.1
openmpi-1.8.x86_64 とその-devel
mpich.x86_64 3.1-5.el6とその-devel
gcc version 4.4.7 (とgfortran)
for WRF3.9, WPS3.9
Open MPI v2.1.1
gcc version 4.9.2 (とgfortran; devtoolset-3使用)
NetCDF v4.4.1.1, NetCDF (Fortran API) v4.4.4
Python 2.6.6 (r266:84292, Aug 18 2016, 15:13:37)
Python 3.6.0 on virtualenv
GNU bash, version 4.1.2(1)-release (x86_64-redhat-linux-gnu)
date (GNU coreutils) 8.4
tmux 1.6-3.el6
謎の再起動の再発
y_okada pts/0 192.168.7.9 Fri Mar 16 09:16 still logged in
reboot system boot 2.6.32-642.el6.x Thu Mar 15 13:50 - 09:16 (19:26)
y_okada pts/0 192.168.7.9 Thu Mar 15 12:36 - crash (01:14)
ログ
@tukiyo3 さんに教えていただいた方法を元に、こちらの記事でps -ef
のログを保存し続けている。
問題の日時のログは下記となっていた。
log_proc_2018-03-15_134601
log_proc_2018-03-15_134701
log_proc_2018-03-15_134801
log_proc_2018-03-15_135101
log_proc_2018-03-15_135201
13時49分と13時50分のログがない。
diff
rebootのかかった日時(2018/03/15 13:50)の直前のログのdiffを取ってみた。
diff_134601_134701
588c588
< root 4758 2 0 Mar08 ? 00:00:39 [kondemand/7]
---
> root 4758 2 0 Mar08 ? 00:00:40 [kondemand/7]
669,674c669,674
< y_okada 32189 17957 99 13:44 pts/3 00:26:45 ./FXXXXT
< root 32232 8701 0 13:46 ? 00:00:00 CROND
< y_okada 32233 32232 0 13:46 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
< y_okada 32234 32233 0 13:46 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
< y_okada 32235 32234 0 13:46 ? 00:00:00 bash ./log_runnig_process_180308_exec
< y_okada 32239 32235 2 13:46 ? 00:00:00 ps -ef
---
> y_okada 32247 17957 99 13:46 pts/3 00:15:07 ./FXXXXT
> root 32280 8701 0 13:47 ? 00:00:00 CROND
> y_okada 32281 32280 0 13:47 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
> y_okada 32282 32281 0 13:47 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
> y_okada 32283 32282 0 13:47 ? 00:00:00 bash ./log_runnig_process_180308_exec
> y_okada 32287 32283 0 13:47 ? 00:00:00 ps -ef
diff_134701_134801
586c586
< root 4755 2 0 Mar08 ? 00:00:42 [kondemand/5]
---
> root 4755 2 0 Mar08 ? 00:00:43 [kondemand/5]
669,674c669,674
< y_okada 32247 17957 99 13:46 pts/3 00:15:07 ./FXXXXT
< root 32280 8701 0 13:47 ? 00:00:00 CROND
< y_okada 32281 32280 0 13:47 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
< y_okada 32282 32281 0 13:47 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
< y_okada 32283 32282 0 13:47 ? 00:00:00 bash ./log_runnig_process_180308_exec
< y_okada 32287 32283 0 13:47 ? 00:00:00 ps -ef
---
> y_okada 32296 17957 99 13:47 pts/3 00:07:20 ./FXXXXT
> root 32329 8701 0 13:48 ? 00:00:00 CROND
> y_okada 32330 32329 0 13:48 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
> y_okada 32331 32330 0 13:48 ? 00:00:00 /bin/sh -c (cd /home/wrf/TOOL && ./log_runnig_process_180308_exec) > /dev/null
> y_okada 32332 32331 0 13:48 ? 00:00:00 bash ./log_runnig_process_180308_exec
> y_okada 32336 32332 0 13:48 ? 00:00:00 ps -ef
上記ログのdiff自体は正常時のdiffと同じようだ。
起動前後の134801と135101のログを比較したが、再起動の原因と分かるようなログは見つからなかった。
関連
- CentOS > 謎の再起動 > 08:49 x 4 > 現在時刻の6分前
- CentOS | cron | log > サーバーのrunning processのログを取る作業
- CentOS > cron設定の消失
今回の再起動によるcron設定の消失は見られなかった。
/var/log/message
/var/log/message
を確認した。Mar. 15 13:50:15
に下記のメッセージが記載され、以後、起動処理をしているようだ。
Mar 15 13:50:15 localhost kernel: imklog 5.8.10, log source = /proc/kmsg started.
Link > CentOS ビデオドライバ(NVIDIA GeForce)関連
-
Problem with GeForce GT 730
- X.org使用、OSは不明?
-
CentOS 6.6上でNVIDIAのGPU(の一部)と共にnouveau使うと発狂して死ぬ
-
GeForce 系は軒並み死ぬのではないかと思います.
-
- CentOS6にNVIDIAグラフィックドライバをインストールするとき by @Koki-Suemitsu さん
情報感謝です。
確認、対処済
- memtest86+にてメモリーに問題ないこと
- ビデオドライバをnouveauからkmod-nvidiaに変更
対処
(2018/04/06追記)
上記の対処をしてから2週間、再起動は起きていません。