CPU过高问题排查

作者: 后来丶_a24d | 来源:发表于2022-09-15 18:52 被阅读0次

CPU负载过高问题排查
Java应用服务器CPU占用过高原因排查
CPU过高排查
CPU占用过高问题排查
线上占用CPU过高问题排查
Java相关的性能调优方案
【实践】golang pprof 实战-CPU,heap,all
排查CPU磁盘等问题
JVM那点事—show-busy-java-threads排查C
排查linux 系统cpu负载过高问题

背景

线上的业务是一个后台管理系统，并发量和QPS都不高，今天线上遇到CPU突然飙到100%，查看Grafana发现QPS，堆内外内存，Pod内存均正常。由于是后台管理系统，跟运营同步之后，有问题的Pod先用于分析，后台功能先不使用。所以也没有把Pod拉出去，也没有执行回滚操作(前天有发布新版本)

实战

进入阿里云对应的Pod，终端执行命令，分析问题，有两种方式

问题定位之纯命令式

top查看占用对应Pid(这里统计展示不知道为什么有些不准)，但是可以看到Pid 13就是我们Java应用服务的Pid

top.png
jstack pid(13), 一个个往下翻找不正常的，这么长的一看就不太正常, 具体问题代码没截出来，但是能知道哪一行代码问题

正则
top -Hp, top -H -p pid由于操作系统版本问题，无法使用，否则可以直接定位到占用最高cpu的线程

问题定位之阿里的Arthas工具查询Cpu占用高

在终端执行下载

wget https://alibaba.github.io/arthas/arthas-boot.jar

运行

java -jar arthas-boot.jar

Arthas.png

查看运行情况, 红框部分就是罪魁祸首

dashboard

Arthas_1.png

查看占用最高cpu线程详情信息, 堆栈信息没截全，最后会输出具体哪行代码

thread pid(51)

Arthas_2.png

问题处理

由Arthas定位到问题代码是, 正则匹配引起的，产品功能是配置链接，后端这边简单校验链接，有问题代码是这个, 触发的原因是产品在配置链接时类似给了https://www.baidu.com/6sfs3sfsa-ggsfdsf-4wrwrwr-geerw-9d094636cab9?#, 地址结构是这样的，真实地址隐藏了

Pattern pattern = Pattern.compile("^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$")
if (!pattern.matcher(sr.getLink()).matches()) {
 ...
}

与产品沟通链接可简单校验，后来改成, 重新发布，问题解决，产品之前那个有问题的链接能够正常配置

Pattern pattern = Pattern.compile("^(|http|https):[^ \"]+$")
if (!pattern.matcher(sr.getLink()).matches()) {
 ...
}

问题原因分析

Java 正则表达式使用的引擎实现是 NFA 自动机，这种正则表达式引擎在进行字符匹配时会发生回溯。而一旦发生回溯，那其消耗的时间就会变得很长，有可能是几分钟，也有可能是几个小时，时间长短取决于回溯的次数和复杂度
NFA自动机匹配原则, 如下例子正则匹配是拿regex的d跟text文本一个个匹配，d先个T匹配不匹配，d再跟o匹配不匹配，d跟d匹配则匹配，再拿regex的a跟text中d后面的a匹配能匹配，y跟y匹配能匹配，当然实际匹配比这个复杂很多

text = Today is a nice day
regex = day

NFA自动回溯，例子是regex以a开头，以c结尾，中间有1-3个b字符的字符串。NFA解析: 读取正则表达式第一个匹配符a和字符串第一个字符 a 比较，匹配了。于是读取正则表达式第二个字符。读取正则表达式第二个匹配符 b{1,3} 和字符串的第二个字符 b 比较，匹配了。但因为 b{1,3} 表示 1-3 个 b 字符串，以及 NFA 自动机的贪婪特性(也就是说要尽可能多地匹配)，所以此时并不会再去读取下一个正则表达式的匹配符，而是依旧使用 b{1,3} 和字符串的第三个字符 b 比较，发现还是匹配。于是继续使用 b{1,3} 和字符串的第四个字符 c 比较，发现不匹配了。此时就会发生回溯。发生回溯是怎么操作呢？发生回溯后，我们已经读取的字符串第四个字符 c 将被吐出去，指针回到第三个字符串的位置。之后，程序读取正则表达式的下一个操作符 c，读取当前指针的下一个字符 c 进行对比，发现匹配则结束

text = abbc
regex = ab{1,3}c

我们有问题的正则

^([hH][tT]{2}[pP]://|[hH][tT]{2}[pP][sS]://)(([A-Za-z0-9-~]+).)+([A-Za-z0-9-~\\\\/])+$

第二部分, 匹配到com/6sfs3sfsa-ggsfdsf-4wrwrwr-geerw-9d094636cab9?#, 你因为贪婪匹配的原因，所以程序会一直读后面的字符串进行匹配，最后发现没有点号，于是就一个个字符回溯回去了，这是第一个问题

(([A-Za-z0-9-~]+).)+

第三部分, 需要匹配的链接是有特殊符号?#的，但是对应第三部分的正则表达式里面却没有。这样就会导致前面匹配了一长串的字符之后，发现不匹配，最后回溯回去，时间就比较长了

([A-Za-z0-9-~\\/])+$

参考文章

网友评论

本文标题：CPU过高问题排查

本文链接：https://www.haomeiwen.com/subject/ddrhortx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

CPU过高问题排查

目录

背景

实战

问题定位之纯命令式

问题定位之阿里的Arthas工具查询Cpu占用高

问题处理

问题原因分析

参考文章

相关文章

CPU负载过高问题排查

Java应用服务器CPU占用过高原因排查

CPU过高排查

CPU占用过高问题排查

线上占用CPU过高问题排查

Java相关的性能调优方案

【实践】golang pprof 实战-CPU,heap,all

排查CPU磁盘等问题

JVM那点事—show-busy-java-threads排查C

排查linux 系统cpu负载过高问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Java子弹

js css html