云主机 CentOS Kernel Hung住处理办法

作者: 董春磊 | 来源:发表于2017-08-01 19:49 被阅读172次

云主机 CentOS Kernel Hung住处理办法
web负载均衡搭建过程记录(nginx 反向代理)
云服务器搭建全过程（阿里云、腾讯云等...通用）
阿里云centos6系统yum源错误解决方法
随记--SSH 免密操作实践（认证登录）
CentOs7&Apache&SSL
阿里云主机ssh 免密码登录
CentOS 6.8 minimal版本安装maven私服
VirtualBox 安装Centos7时出现kernel he
VMware虚拟机共享文件夹为空问题解决办法

故障描述：

云主机无法ssh及ping通，VNC查看提示“echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message”

VNC截图

处理过程：

1.重启云主机进行恢复无效，怀疑云主机底层资源有问题

2.查看宿主机上云主机的磁盘进程，有ntp未结束进程，sudo kill -9 $PID 将所有进程杀死

climc server-syncstatus 后台同步状态

climc server-start

3.进入云主机排查

sar -r 查看内存利用率，是否有大量free

sar -u 查看CPU利用率

4.如果没有core dump，可以检查/var/log/message，搜索“echo 0 > /proc/sys/kernel/hung_task_timeout_secs” disables this messageand“blocked for more than 120 seconds”

结论：

内存数据落盘时引发的故障

默认情况下，Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后，文件系统会把将缓存中的内存全部写入磁盘，导致后续的IO请求都是同步的。将缓存写入磁盘时，有一个默认120秒的超时时间。出现上面的问题的原因是IO子系统的处理速度不够快，不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢，导致越来越多的请求堆积，最终系统内存全部被占用，导致系统失去响应。

另外，在进程处理于可中断的睡眠状态S 时<需要看dump>，进程要等待如套接字、信号量被挂起，进入到对应事件等待队列中的的这个时间太长，占用了队列空间使进程长时间处于阻塞状态，影响了进程队列的有序调度

规避方法：

根据应用程序情况，对vm.dirty_ratio，vm.dirty_background_ratio两个参数进行调优设置。

推荐如下设置：

# sysctl -w vm.dirty_ratio=10

# sysctl -w vm.dirty_background_ratio=5

# sysctl -p

如果系统永久生效，修改/etc/sysctl.conf文件。加入如下两行：

#vi /etc/sysctl.conf

vm.dirty_background_ratio = 5

vm.dirty_ratio = 10

重启系统生效。

网友评论

本文标题：云主机 CentOS Kernel Hung住处理办法

本文链接：https://www.haomeiwen.com/subject/yakslxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

云主机 CentOS Kernel Hung住处理办法

故障描述：

处理过程：

结论：

规避方法：

相关文章

云主机 CentOS Kernel Hung住处理办法

web负载均衡搭建过程记录(nginx 反向代理)

云服务器搭建全过程（阿里云、腾讯云等...通用）

阿里云centos6系统yum源错误解决方法

随记--SSH 免密操作实践（认证登录）

CentOs7&Apache&SSL

阿里云主机ssh 免密码登录

CentOS 6.8 minimal版本安装maven私服

VirtualBox 安装Centos7时出现kernel he

VMware虚拟机共享文件夹为空问题解决办法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读