美文网首页
线上服务器cpu 100%了,该如何排查问题?

线上服务器cpu 100%了,该如何排查问题?

作者: 码农架构 | 来源:发表于2021-06-16 16:40 被阅读0次

    cpu使用率是如何统计出来的?

    这里的cpu使用率与linux 命令top-H-p<pid> 的线程%CPU类似,一段采样间隔时间内,当前JVM里各个线程的增量cpu时间与采样间隔时间的比例。

    工作原理说明:

    • 首先第一次采样,获取所有线程的CPU时间(调用的是java.lang.management.ThreadMXBean#getThreadCpuTime()及sun.management.HotspotThreadMBean.getInternalThreadCpuTimes()接口)
    • 然后睡眠等待一个间隔时间(默认为200ms,可以通过-i指定间隔时间)
    • 再次第二次采样,获取所有线程的CPU时间,对比两次采样数据,计算出每个线程的增量CPU时间
    • 线程CPU使用率 = 线程增量CPU时间 / 采样间隔时间 * 100%

    注意: 这个统计也会产生一定的开销(JDK这个接口本身开销比较大),因此会看到as的线程占用一定的百分比,为了降低统计自身的开销带来的影响,可以把采样间隔拉长一些,比如5000毫秒。

    使用参考

    当前最忙的前N个线程并打印堆栈:

    image image
    • 没有线程ID,包含[Internal]表示为JVM内部线程,参考dashboard命令的介绍。
    • cpuUsage为采样间隔时间内线程的CPU使用率,与dashboard命令的数据一致。
    • deltaTime为采样间隔时间内线程的增量CPU时间,小于1ms时被取整显示为0ms。
    • time 线程运行总CPU时间。

    注意:线程栈为第二采样结束时获取,不能表明采样间隔时间内该线程都是在处理相同的任务。建议间隔时间不要太长,可能间隔时间越大越不准确。 可以根据具体情况尝试指定不同的间隔时间,观察输出结果。

    image

    当没有参数时,显示第一页线程的信息

    默认按照CPU增量时间降序排列,只显示第一页数据。

    image
    • thread –all, 显示所有匹配的线程

    显示所有匹配线程信息,有时需要获取全部JVM的线程数据进行分析。

    • thread id, 显示指定线程的运行堆栈
    image
    • thread -b, 找出当前阻塞其他线程的线程

    有时候我们发现应用卡住了, 通常是由于某个线程拿住了某个锁, 并且其他线程都在等待这把锁造成的。 为了排查这类问题, arthas提供了thread-b, 一键找出那个罪魁祸首。
    注意, 目前只支持找出synchronized关键字阻塞住的线程, 如果是java.util.concurrent.Lock, 目前还不支持。目前使用效果不佳

    • thread -i, 指定采样时间间隔
      • thread-i1000 : 统计最近1000ms内的线程CPU时间。
      • thread-n3-i1000 : 列出1000ms内最忙的3个线程栈
    image
    • thread –state ,查看指定状态的线程
    image

    作者 | 智哥

    原文链接

    本文为码农架构原创内容,未经允许不得转载。

    相关文章

      网友评论

          本文标题:线上服务器cpu 100%了,该如何排查问题?

          本文链接:https://www.haomeiwen.com/subject/tjxgeltx.html