美文网首页
记录一次重启引发的死机

记录一次重启引发的死机

作者: 阿西C梦 | 来源:发表于2023-05-04 18:41 被阅读0次

背景

公司在办公区部署一台内网服务器,用于文件存储。因为出差人员有访问需要就在业务机房部署了openvpn,通过虚拟局域网访问。
服务稳定的运行了3年,然后一天突然所有账号全部掉线了,偶尔连上还巨慢无比。


跟问题无关的网络结构

省流结论

重启服务器时候两个service反复创建虚拟网络设备导致系统死机。找到重复的service关掉一个就恢复了

排查经过

  1. 上服务器:服务器直接报警 /run分区已满,继续排查 /run/NetworkManager/devices/目录下创建立数不清虚拟设备,直接把/run撑爆了
    分区爆了
  1. journalctl 查看日志 vpn-journald一直在创建文件,但是服务已经跑了三年多,理论上应该不会出问题,遂重启服务。
  2. 不重启好还重启之后闯大祸了,同一台物理机上的服务器纷纷离线报警,过了几秒物理机也离线了。完蛋,准备跑路吧(实际上已经准备好东西准备申请进机房了)

大约过了5分钟,物理机重新上线,其他业务陆续恢复。但隔了一会又离线了,循环往复。

实在没办法,趁着恢复的短暂时间,光速关闭vpn服务器,先保住其他业务再说。

夜深人静,大家都没用系统,重新开启vpn服务器。貌似好了(其实没有)。分区也空下来了,也不重启了。赶紧翻了一下日志

kernel:NMI watchdog: BUG: soft lockup - CPU#1 stuck for 32s!

好家伙死锁了,难怪物理机直接嗝屁了。赶紧查原因,否则再次死机迟早得事情

  1. 最后还是查到/run/NetworkManager/devices/,目录下的虚拟设备正在稳定增加。查了服务日志,emm破案了,service在疯狂启动。但是这服务运行了三年了都没出过问题。
  2. 打了电话给机房帮忙查日志。两年了都没人登陆过这台服务器,还扫描了服务器排除了中病毒的可能。算了算分区文件增长速度,一天/run分区就满了。绝望的我准备重新申请资源,重新部署服务。然后机房告诉我最近机房升级有重启过所有的服务器,我瞬间惊醒,查了一下启动项,居然有两个!
openvpn-server@.service                       enabled 
openvpn@.service                              enabled

其中一个正常再跑,两外一个启动失败,重启,失败再重启。。。。。。

  1. 关闭其中一个,重启服务器(保险起见) ,观察到凌晨2点。虚拟设备不增加,服务稳定,终于彻底恢复了!睡觉!

总结

  1. 服务挂掉的原因:服务的安装脚本有问题,创建了两个service,并且同时注册了开机启动。直到这次重启服务器导致其中一个无法启动,疯狂注册虚拟设备,还无法自己删除,最终资源消耗干净死机了
  2. 物理机挂掉的原因:两个service之间再抢占CPU,重启操作导致死锁。G!
  3. 教训:服务安装完毕不能只做功能测试,要完整的检查所有操作涉及的项目!

相关文章

  • 死机重启

    伸出你的左手,同时按住+ 键,别松开右手先按一下 ,左手别松开,等1秒右手按一下 R,左手别松开,等1...

  • 死机重启

    信息量太大,cpu高速运转,发热,迟缓,像极了我的大脑!以至于今天死机了! 我本来以为我发现了新大陆,想跃跃欲试,...

  • iPhone也有重启快捷键你知道吗?

    iPhone苹果手机开机开不起来死机,需要重启,那么怎么重启呢? 死机的原因开不了机 手机开不了机,是分为很多种的...

  • 电脑又死机了

    新买电脑的欣喜被时不时的死机恼火到极点。年前因死机去找过一次,没说什么,强制关机后,重启一下。我就拿回来了。...

  • “克机”体质重出江湖

    昨天下午四点多,电脑突然死机了。重启,成功,5分钟后又死机,再重启,嘀嘀嘀报警。 找了维护电脑终端的同事帮忙看,说...

  • 有重启键吗?

    电脑死机,手机卡顿,都可以重启。人卡顿怎么重启?有重启键吗? 有重启键吗? 我常有充满激情的...

  • 电脑死机了,重启电脑

    我不懂电脑 对于死机的电脑, 我一直都相信一个好办法 重启 在我的世界里 不管电脑多捣蛋 一招重启足以对付。 死机...

  • 未曾死机,何来重启

    转眼间,2020已经快到一半,几个月前经常看到的那种“重启2020”“回归正轨”这类标题的公众号文章,也好像都消失...

  • 关于Ubuntu死机的一系列尝试

    May 25Ubuntu重启死机:https://blog.csdn.net/xrinosvip/article/...

  • 2020-05-15

    重置应用偏好,AMS和PMS deadlock,导致手机重启 在Android Q中,今天遇到个死机重启问题。在S...

网友评论

      本文标题:记录一次重启引发的死机

      本文链接:https://www.haomeiwen.com/subject/rowxsdtx.html