美文网首页
云主机 CentOS Kernel Hung住处理办法

云主机 CentOS Kernel Hung住处理办法

作者: 董春磊 | 来源:发表于2017-08-01 19:49 被阅读172次

    故障描述:

    云主机无法ssh及ping通,VNC查看提示“echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message”

    VNC截图

    处理过程:

    1.重启云主机进行恢复无效,怀疑云主机底层资源有问题

    2.查看宿主机上云主机的磁盘进程,有ntp未结束进程,sudo kill -9 $PID 将所有进程杀死

    climc server-syncstatus 后台同步状态

    climc server-start

    3.进入云主机排查

    sar -r 查看内存利用率,是否有大量free

    sar -u 查看CPU利用率

    4.如果没有core dump,可以检查/var/log/message,搜索“echo 0 > /proc/sys/kernel/hung_task_timeout_secs” disables this messageand“blocked for more than 120 seconds”

    结论:

    内存数据落盘时引发的故障

    默认情况下,Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的。将缓存写入磁盘时,有一个默认120秒的超时时间。 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应。

    另外,在进程处理于可中断的睡眠状态S 时<需要看dump>,进程要等待 如 套接字、信号量被挂起,进入到对应事件等待队列中的的这个时间太长,占用了队列空间使进程长时间处于阻塞状态,影响了进程队列的有序调度

    规避方法:

    根据应用程序情况,对vm.dirty_ratio,vm.dirty_background_ratio两个参数进行调优设置。

    推荐如下设置:

    # sysctl -w vm.dirty_ratio=10

    # sysctl -w vm.dirty_background_ratio=5

    # sysctl -p

    如果系统永久生效,修改/etc/sysctl.conf文件。加入如下两行:

    #vi /etc/sysctl.conf

    vm.dirty_background_ratio = 5

    vm.dirty_ratio = 10

    重启系统生效。

    相关文章

      网友评论

          本文标题:云主机 CentOS Kernel Hung住处理办法

          本文链接:https://www.haomeiwen.com/subject/yakslxtx.html