美文网首页
集群神奇挂掉的问题

集群神奇挂掉的问题

作者: 小木胆 | 来源:发表于2018-10-23 10:09 被阅读0次

最近一个集群出现了不稳定的问题。重启之后也很快挂掉,问题是在某个时间点之前工作一直很稳定。。

首先检查了各个配置和日志都没发现什么问题。

后来跑了一下如下命令,才发现某个out文件居然有几百G的容量:

find ./ -name "*.out" | xargs ls -alh

问题就出来这里,程序启动用了nohup强制进入后台运行,往out文件不停写日志,在out文件还小的情况下没啥问题,一旦这个文件大到一定程度,那就导致写入日志会非常卡,最后导致整个集群挂掉。不知道当年哪位大哥埋的坑。。

在不停止程序清空out文件的方法有两种:

cp /dev/null nohup.out
cat /dev/null > nohup.out

但是对于一些很重要的debug信息,这样搞又会简单粗暴了点。所以可以限制只向out输出错误日志:

nohup ./program >/dev/null 2>log &

附注:

- 0:表示标准输入
- 1:标准输出,在一般使用时,默认的是标准输出
- 2:标准错误信息输出

如果还是想要保存所有的日志,那就只能请出老牌的工具logrotate了。这个有点复杂,而且网上有很多资料了,跳过。我其实也很好奇,搭集群的大哥为了偷懒,没有配置这个。

最后对于这样的进入后台运行的程序,还有个办法,就是用superviosr管理起来。supervisor可以配置保留日志的分数
和每个日志的大小,虽然无法按日期分日志,但是也能满足需求。

相关文章

  • 集群神奇挂掉的问题

    最近一个集群出现了不稳定的问题。重启之后也很快挂掉,问题是在某个时间点之前工作一直很稳定。。 首先检查了各个配置和...

  • HBase运维系列:Regions In Transition

    问题描述:HBase集群中Master服务挂掉了,重启后没过多久又会挂掉,尝试多次重启,问题依旧。查看HBase ...

  • DataNode无法启动,All specified direc

    Namenode节点因网络问题挂掉以后,整个集群的datanode等服务也相继挂了,待修复网络问题,并且启动集群后...

  • 如何引发缓存雪崩

    redis集群挂掉,引起的整个系统雪崩分析:

  • Elastic job leader选举 源码分析

    问题3 当某一实例 挂掉时候 ,集群的leader 会报异常 ,当任务完成的时候 , 只会重新分片 , 如果 ...

  • CEPH 新加host 添加OSD 故障 pg down

    由于业务问题把ceph的集群进行调整,当时某一host因内存问题挂掉。借此机会把所有的osd,down--out-...

  • ZooKeeper部署配置

    集群中节点数量 最好选择奇数台,比如:集群中有4台node,只允许挂掉1台,因为如果挂掉两台剩余的两台无法正常工作...

  • zookeeper存在不稳定原因分析

    zookeeper存在不稳定的情况,偶尔会出现集群挂掉,服务不可用的情况。近期对zookeeper容易挂掉的原因做...

  • Redis集群跨机房数据实时同步

    一、问题出现 Redis集群本身已经具备高可用特性了,即使其中一个或多个节点挂掉,Redis Cluster会实时...

  • es6.2.4集群重启

    有时候对集群进行配置,增删硬件,升级节点,需要重启集群。若果直接kill掉,集群会认为该节点挂掉了,开始转移数据。...

网友评论

      本文标题:集群神奇挂掉的问题

      本文链接:https://www.haomeiwen.com/subject/ruyozftx.html