LoginSignup
0
0

More than 1 year has passed since last update.

syslogサーバの通信が不安定になっていたので再起動で解消した

Last updated at Posted at 2023-05-16

概要

  • 物理的な再起動の前に、OSの再起動を行うとよい。

環境

[syslogserver@alma01 ~]$ cat /etc/redhat-release
AlmaLinux release 9.0 (Emerald Puma)
  • ハードウェアはMinisforum N40。Win10Proが入っていたものに、USBメモリからAlmaLinuxを入れ、Syslogサーバとして運用している。

  • YAMAHA RTX1300やSynology NAS(サーバラックに複数台)、あとはアクセスポイントからのsyslogをrsyslogで受けて、マウントさせたNASに飛ばしている。logrotateを設定している。

  • 経路はインターネット→RTX1300→L2スイッチ→N40。

障害が発生するまで

  • 数日前に施設点検で施設全体の電力供給が落ちた。その際、N40の電源を落とした。
  • 電力供給復旧後、N40の電源を入れ直す。翌日、自宅からRTX1300経由でVPNにて入り、N40にSSH接続しようとすると、重くて入れない。
  • "ping 192.168.1.100"(N40のローカルIPアドレス)を打つと、不安定な結果となる。
saitoh@MBP:~$ ping 192.168.1.100
PING 192.168.1.100 (192.168.1.100) 56(84) bytes of data.
64 bytes from 192.168.1.100: icmp_seq=1 ttl=64 time=6559 ms
64 bytes from 192.168.1.100: icmp_seq=2 ttl=64 time=5535 ms
64 bytes from 192.168.1.100: icmp_seq=3 ttl=64 time=4511 ms
64 bytes from 192.168.1.100: icmp_seq=4 ttl=64 time=3487 ms
64 bytes from 192.168.1.100: icmp_seq=5 ttl=64 time=2463 ms
64 bytes from 192.168.1.100: icmp_seq=6 ttl=64 time=1439 ms
64 bytes from 192.168.1.100: icmp_seq=7 ttl=64 time=416 ms
64 bytes from 192.168.1.100: icmp_seq=8 ttl=64 time=282 ms
64 bytes from 192.168.1.100: icmp_seq=9 ttl=64 time=0.271 ms
64 bytes from 192.168.1.100: icmp_seq=10 ttl=64 time=0.234 ms
64 bytes from 192.168.1.100: icmp_seq=11 ttl=64 time=0.180 ms
64 bytes from 192.168.1.100: icmp_seq=12 ttl=64 time=0.227 ms
64 bytes from 192.168.1.100: icmp_seq=13 ttl=64 time=5.83 ms
64 bytes from 192.168.1.100: icmp_seq=14 ttl=64 time=0.313 ms
64 bytes from 192.168.1.100: icmp_seq=15 ttl=64 time=0.223 ms
64 bytes from 192.168.1.100: icmp_seq=16 ttl=64 time=0.209 ms
64 bytes from 192.168.1.100: icmp_seq=17 ttl=64 time=0.241 ms
64 bytes from 192.168.1.100: icmp_seq=18 ttl=64 time=9339 ms
64 bytes from 192.168.1.100: icmp_seq=19 ttl=64 time=8316 ms
64 bytes from 192.168.1.100: icmp_seq=20 ttl=64 time=7292 ms
64 bytes from 192.168.1.100: icmp_seq=21 ttl=64 time=6269 ms
64 bytes from 192.168.1.100: icmp_seq=22 ttl=64 time=5245 ms
64 bytes from 192.168.1.100: icmp_seq=23 ttl=64 time=4222 ms
64 bytes from 192.168.1.100: icmp_seq=24 ttl=64 time=3198 ms
64 bytes from 192.168.1.100: icmp_seq=25 ttl=64 time=2174 ms
64 bytes from 192.168.1.100: icmp_seq=26 ttl=64 time=1150 ms
64 bytes from 192.168.1.100: icmp_seq=27 ttl=64 time=127 ms
64 bytes from 192.168.1.100: icmp_seq=28 ttl=64 time=452 ms
64 bytes from 192.168.1.100: icmp_seq=29 ttl=64 time=125 ms
^C
--- 192.168.1.100 ping statistics ---
30 packets transmitted, 29 received, 3.33333% packet loss, time 29532ms
rtt min/avg/max/mdev = 0.180/2503.664/9339.012/2897.330 ms, pipe 10

対処

9000msとかおかしくね?ということで、ハードウェアの不具合を行う。
幸い、サーバールーム前にいる社員がいたので、

  • 電源長押しで再起動(後から知ったのだが、Minisforum N40は電源長押しだけではなく、ACアダプタを抜く必要があるらしい)
  • L2スイッチ側の差し込み口を変更
  • LANケーブルを新品に交換

を依頼。しかし、状況改善せず。
ようやくSSHには入れるものの・・・

[syslogserver@alma01 ~]$ free

Message from syslogd@alma01 at May 15 18:50:25 ...
 kernel:watchdog: BUG: soft lockup - CPU#1 stuck for 26s! [swapper/1:0]

Message from syslogd@alma01 at May 15 18:50:49 ...
 kernel:watchdog: BUG: soft lockup - CPU#1 stuck for 22s! [kworker/1:2H:1286]

Message from syslogd@alma01 at May 15 18:51:13 ...
 kernel:watchdog: BUG: soft lockup - CPU#1 stuck for 23s! [swapper/1:0]

pingもたまに"Destination Host Unreachable"が返ってくる始末。

From 192.168.1.241 icmp_seq=67 Destination Host Unreachable

途方に暮れて、出社して実際にあれこれ試す必要があるのかと思い、「そう言えば、再起動は再起動でも、なかなかSSHからコマンドが通らなかったから、OS側の再起動はしていなかったな」ということで、ようやくSSHログインが通った瞬間に下記を実行。

sudo shutdown -r now

ちなみに、この入力自体も、一文字一文字ラグがあって、なかなか入力できなかった。

数分後…

saitoh@MBP:~$ ping 192.168.1.100
PING 192.168.1.100 (192.168.1.100) 56(84) bytes of data.
64 bytes from 192.168.1.100: icmp_seq=1 ttl=64 time=0.797 ms
64 bytes from 192.168.1.100: icmp_seq=2 ttl=64 time=0.485 ms
64 bytes from 192.168.1.100: icmp_seq=3 ttl=64 time=0.477 ms
64 bytes from 192.168.1.100: icmp_seq=4 ttl=64 time=0.481 ms
64 bytes from 192.168.1.100: icmp_seq=5 ttl=64 time=0.480 ms

普通に治ってるんですけど…。

[sv10mk2@alma01 ~]$ vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  0      0 3173028   5248 179132    0    0    79     5   61   90  0  0 99  0  0

こちらも異常なし。
どうやら、なんらかの理由でサーバの処理が追いついていなかったようだった。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0