動作環境
Xeon E5-2620 v4 (8コア) x 2
32GB RAM
CentOS 6.8 (64bit)
NCAR Command Language Version 6.3.0
for WRF3.7.1, WPS3.7.1
openmpi-1.8.x86_64 とその-devel
mpich.x86_64 3.1-5.el6とその-devel
gcc version 4.4.7 (とgfortran)
for WRF3.9, WPS3.9
Open MPI v2.1.1
gcc version 4.9.2 (とgfortran; devtoolset-3使用)
NetCDF v4.4.1.1, NetCDF (Fortran API) v4.4.4
Python 2.6.6 (r266:84292, Aug 18 2016, 15:13:37)
Python 3.6.0 on virtualenv
GNU bash, version 4.1.2(1)-release (x86_64-redhat-linux-gnu)
date (GNU coreutils) 8.4
tmux 1.6-3.el6
週末に処理をしていたCentOSサーバーにつながらない。
再起動後にcrash, down情報を見てみた。
lastコマンド
FreeBSD 2.2.8の時に使っていたlastコマンドをふと思い出した。
(下記、ユーザ名とIPアドレスは公開用に書替えしている)
$last
xxx pts/0 192.168.7.9 Mon Feb 26 09:58 still logged in
xxx pts/0 :0.0 Mon Feb 26 09:56 - 09:58 (00:02)
xxx tty1 :0 Mon Feb 26 09:55 still logged in
reboot system boot 2.6.32-642.el6.x Mon Feb 26 09:53 - 09:59 (00:05)
xxx pts/0 192.168.7.9 Fri Feb 23 20:24 - crash (2+13:29)
xxx pts/0 192.168.7.9 Fri Feb 23 14:33 - 20:08 (05:34)
xxx pts/0 192.168.7.9 Fri Feb 23 11:46 - 14:28 (02:42)
xxx pts/0 192.168.7.9 Fri Feb 23 11:18 - 11:33 (00:15)
xxx pts/0 192.168.7.9 Fri Feb 23 11:17 - 11:18 (00:00)
xxx pts/0 192.168.7.9 Fri Feb 23 11:09 - 11:17 (00:07)
xxx pts/0 192.168.7.9 Fri Feb 16 19:52 - 19:23 (4+23:30)
xxx pts/0 192.168.7.9 Thu Feb 1 14:34 - 11:11 (3+20:36)
xxx pts/0 192.168.7.9 Thu Feb 1 10:25 - 14:15 (03:50)
xxx pts/0 192.168.7.9 Wed Jan 31 11:13 - 10:04 (22:50)
xxx pts/1 localhost:10.0 Tue Jan 30 08:30 - 10:48 (1+02:17)
xxx pts/0 192.168.7.9 Tue Jan 30 08:28 - 10:48 (1+02:19)
reboot system boot 2.6.32-642.el6.x Mon Jan 29 18:42 - 09:59 (27+15:16)
xxx pts/0 192.168.7.9 Thu Jan 25 18:16 - crash (4+00:26)
crash日時
GNU coreutilsのdateコマンドで上記のcrash日時を見てみる。
$ date --date="2018-02-23 20:24 2day 13 hour 29 minute"
Mon Feb 26 09:53:00 JST 2018
再起動
同じシステムで今度は再起動がかかっていた。
何が起きているのか?