袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理

袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理

作者: 袋鼠云DTSTACK | 来源:发表于2020-06-11 09:57 被阅读0次

袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理
云MSP服务案例（1）：某客户生产服务器CPU异常抖动
云MSP运维服务案例：某客户生产服务器CPU异常
一篇超详细的系统异常处理指南？
数栈SQL优化案例：OR条件优化
数栈运维案例：生产服务器CPU负载异常处理
数栈数据安全案例：混合云环境数据库备份容灾实现
2021-03-29　定位占用cpu高的sql
Arthas 实践——生产环境排查 CPU 飚高问题
linux服务诊断常用命令，工具，调优总结

作者：阿龙

袋鼠云高级运维工程师

多年应用运维/管理经验，擅长中间件调优、devops运维;参与主导互联网医疗、金融等多领域运维工作，曾独立负责多家企业上云及云上运维工作，保障客户业务稳定运行。

问题背景

一天下午，大家都在忙着各自的事情，突然小组人员都同时收到了短信提醒，以为是公司发奖金了，很是开心，咋一看“某某客户服务器cpu使用率100%，请及时处理！”原来是告警短信，同时看到钉钉群里发出了大量的告警信息……

故障回顾

告警提示”CPU使用率到达98%” ，打开阿里云控制台，通过云监控发现在下午15:06-16:46左右，云上机器某四台集群服务器cpu使用率波动较大（先降后升），负载过高，网络流量达到一定峰值就出现下降趋势，TCP连接数先是出现下降趋势，后面出现上升状态。现象如下图：

CPU先降后升使用率情况：使用率接近100%

系统平均负载先升后降情况：load超过40

网络流入流量：网络带宽流入流出先降后升

TCP 连接数情况：先升后降

问题排查过程

1) nginx 日志排查

查看nginx15:06-16:46时间段的日志发现请求订单接口响应时间较长，超过30s。如下图：

2) 查看fpm-php日志

查看fpm-php日志，在15:06-16:46这个时间段中，fpm-php子进程出现大量重启，如下图：

同时，nginx错误日志中发现较多的502,504状态码，如下图：

Nginx 502 状态码：

Nginx 504 状态码：

3) 问题定位分析

a. 从fpm-php对应的日志里发现大量的fpm-php子进程重启,原因是每个子进程接受的请求数达到设定值。

b. 在大量的fpm-php子进程重启过程中，如果有大量请求进来是无法响应的，所以Nginx收到大量的502、504报错。

c. 同时在大量的fpm-php重启时会消耗大量的CPU load， PHP不接受业务请求、不转发数据，服务器流量直线下降。

4) 处理结论

经过上述分析，最终定位确认是fpm-php子进程数配置太低，同时每个子进程接受的请求数max_requests设置太小。无法应对每天的流量高峰。

优化建议

根据服务器的CPU/内存配置，适当增加children的数量和max_requests的请求数。如下图，设置一个比较大的值。

优化效果

1）增加fpm-php子进程数以及每个子进程接收的请求能减少php子进程大量重启频次；

2）可缓解业务高峰期对服务造成的压力，降低业务影响。

写在最后

基于互联网在线化方式，袋鼠云为客户提供云上网络和资源规划、应用架构规划、性能优化、监控告警、系统健康检查、业务大促护航、云上安全运营等全方位的专业运维服务，保障客户业务系统在云上稳定运行。

如果您还想进一步了解云上运维服务，欢迎联系袋鼠云。

相关文章

袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理
作者：阿龙袋鼠云高级运维工程师多年应用运维/管理经验，擅长中间件调优、devops运维;参与主导互联网医疗、金...
云MSP服务案例（1）：某客户生产服务器CPU异常抖动
问题背景某日袋鼠云运维小哥进行例行运维巡检，通过监控视图发现客户应用服务器cpu使用率突然呈上升趋势。通过专属服...
云MSP运维服务案例：某客户生产服务器CPU异常
一、问题背景某日袋鼠云运维小哥进行例行运维巡检，通过监控视图发现客户应用服务器cpu使用率突然呈上升趋势。通过专...
一篇超详细的系统异常处理指南？
1. 服务异常的处理流程 2. 负载 2.1 查看机器 cpu 的负载 2.2 查找 cpu 占用率高的线程（1...
数栈SQL优化案例：OR条件优化
本文整理自：袋鼠云技术荟 | SQL优化案例(2)：OR条件优化[https://link.zhihu.com/?...
数栈运维案例：生产服务器CPU负载异常处理
一、问题背景一天下午，大家都在忙着各自的事情，突然小组人员都同时收到了短信提醒，以为是公司发奖金了，很是开心，咋...
数栈数据安全案例：混合云环境数据库备份容灾实现
本文整理自：袋鼠云技术荟 | 数据安全(1)：混合云环境数据库备份容灾实现[https://link.zhihu....
2021-03-29　定位占用cpu高的sql
当一台部署了mysql的服务器负载过高的时候，往往是由于某条sql占用cpu过高导致的，如何通过占用服务器CPU资...
Arthas 实践——生产环境排查 CPU 飚高问题
生产环境 CPU 告警： 13:40 收到我们的生产环境服务器绿版 CUP 超负载告警通知。此时心里只有一个想法...
linux服务诊断常用命令，工具，调优总结
服务异常的处理流程查看服务的资源消耗查看机器 cpu 的负载 top -b -n 1 |grep java|a...

网友评论

本文标题：袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理

本文链接：https://www.haomeiwen.com/subject/nbvvtktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！