JVM-排查问题

作者: 麦大大吃不胖 | 来源:发表于2020-12-23 14:54 被阅读0次

JVM-排查问题
JVM-排查工具
JVM类加载器与双亲委派模型（JDK8）
问题排查
问题排查
问题排查
一种Java动态调试与热修复技术实践
【SpringBoot】连接mysql数据库乱码
记一次OOM查询处理过程
游戏服务器线上问题排查定位实战

by shihang.mai

rocketMq监控界面TPS上不去

Cloud-nms-dlq模块
rocketMq监控界面显示Tps很低，只有几十

疯狂GC->内存增大到8G，垃圾回收器改为G1，从TPS0->几百

用arthas
```
thread -n all
```
发现很多业务线程在waiting状态,再用
```
thread 线程号
```
查看某个waiting线程的堆栈,发现在wait另外一个线程,然后拿到线程的16进制数转换10执行后
```
thread 线程号
```
在线程栈中找到究竟waiting什么鬼，最终发现是关于logback日志的,CachingDateFormatter类加了Sync
JVM优化CachingDateFormatter.png

同时引入了JMC

启动时加入jvm参数

-Djava.net.preferIPv4Stack=true
-XX:+FlightRecorder
-XX:FlightRecorderOptions=stackdepth=128
-XX:+UnlockDiagnosticVMOptions
-XX:+DebugNonSafepoints

然后命令开始搜集、结束

jcmd 9955 JFR.start name=MyRecording settings=profile

jcmd 9955 JFR.dump name=MyRecording filename=/home/yundiao/1736.jfr

jcmd 9955 JFR.stop name=MyRecording

然后将jfr文件用飞行器分析，结果和arthas分析一样

就是多线程写日志文件，导致IO竞争(原本直接在yml直接设置日志)
- 异步日志。但会有溢出，重启时会丢失日志
- 按线程写文件
选择按线程写文件解决IO竞争(改为引入logback.xml配置)

logback有一个叫SiftingAppender的类，可以做按线程写日志，只需注入自定义Discriminator，日志名分发器

public class ThreadDiscriminator extends ContextBasedDiscriminator {
    String KEY ="threadName";
    
    public String getDiscriminatingValue(ILoggingEvent event) {
        return event.getThreadName();
    }
    
    public String getDefaultValue() {
        return KEY;
    }
    
    public String getKey() {
        return KEY;
    }
    
    public void setKey(String key) {
        this.KEY = key;
    }
}

日志配置增加appender

<appender name="frameworkthread" class="ch.qos.logback.classic.sift.SiftingAppender">
        <discriminator class="com.iwhalecloud.dlq.commonbean.ThreadDiscriminator">
            <key>threadName</key>
        </discriminator>
        <sift>
            <appender name="FILE-${threadName}" class="ch.qos.logback.core.rolling.RollingFileAppender">
                <encoder>
                    <Encoding>UTF-8</Encoding>
                    <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS}[%c][%thread][%X{tradeNo}][%p]-%m%n</pattern>
                </encoder>
                <rollingPolicy
                        class="ch.qos.logback.core.rolling.SizeAndTimeBasedRollingPolicy">
                    <fileNamePattern>${log.path}/%d{yyyy-MM-dd,aux}/${threadName}-%d{yyyy-MM-dd}.%i.log
                    </fileNamePattern>
                    <maxFileSize>100MB</maxFileSize>
                    <maxHistory>3</maxHistory>
                </rollingPolicy>
            </appender>
        </sift>
    </appender>

确实可以按线程写日志，然后再看RocketMq的TPS，竟然性能没所提升，还会下降。
- 然后再用JMC分析发现这次在AppenderBase.doAppender()，然后查看源码，发现这个方法是sync的，而这个方法是我上面的SiftingAppender入口
  JMC分析结果
- 分析原因，在我获取自己的SiftingAppender时，要经过父类的这个方法，所以肯定更低Tps
然后看接口Appender的实现类有两个基础的抽象

非同步:UnsynchronizedAppenderBase,用了ThreadLocal

同步:AppenderBase,用sync

增加类UnsynchronizedSiftingAppenderBase extends UnsynchronizedAppenderBase

创建类ParrelSiftingAppender extends UnsynchronizedSiftingAppenderBase

修改SiftAction类,增加我的ParrelSiftingAppender的注册分支

public class SiftAction extends Action implements InPlayListener {
    List<SaxEvent> seList;

    public SiftAction() {
    }

    public void begin(InterpretationContext ic, String name, Attributes attributes) throws ActionException {
        this.seList = new ArrayList();
        ic.addInPlayListener(this);
    }

    public void end(InterpretationContext ic, String name) throws ActionException {
        ic.removeInPlayListener(this);
        Object o = ic.peekObject();
        if (o instanceof SiftingAppender) {
            SiftingAppender sa = (SiftingAppender)o;
            Map<String, String> propertyMap = ic.getCopyOfPropertyMap();
            AppenderFactoryUsingJoran appenderFactory = new AppenderFactoryUsingJoran(this.seList, sa.getDiscriminatorKey(), propertyMap);
            sa.setAppenderFactory(appenderFactory);
        }
          //增加判断分支

    }

    public void inPlay(SaxEvent event) {
        this.seList.add(event);
    }

    public List<SaxEvent> getSeList() {
        return this.seList;
    }
}

看TPS 提高了大概5倍左右，效果还行，再用jmc分析，然后我崩溃了，竟然还有，出现在类UnsynchronizedSiftingAppenderBase

protected void append(E event) {
        if (this.isStarted()) {
            String discriminatingValue = this.discriminator.getDiscriminatingValue(event);
            long timestamp = this.getTimestamp(event);
          //竞争出现在这
            Appender<E> appender = (Appender)this.appenderTracker.getOrCreate(discriminatingValue, timestamp);
            if (this.eventMarksEndOfLife(event)) {
                this.appenderTracker.endOfLife(discriminatingValue);
            }

            this.appenderTracker.removeStaleComponents(timestamp);
            appender.doAppend(event);
        }
    }

这不能忍，看一下源码，发现synchronized，getOrCreate是同步的。点进去看LinkedHashMap做lru，怪不得要加synchronized
然后开始修改appenderTracker
- 增加AbstractConcurrentMapComponentTracker,参考AbstractComponentTracker
- 增加ConcurrentMapAppenderTracker继承AbstractConcurrentMapComponentTracker
- 修改UnsynchronizedSiftingAppenderBase使用ConcurrentMapAppenderTracker进行Appender管理
最终提高了10倍。终于结束
总结
JVM调休logback多线程写日志
1. TPS=0,内存2g->8g，gc回收器改为G1，TPS=0 -> TPS=几百
2. 用arthas和JMC分析出是因为多线程写日志导致TPS低
3. 首先直接用SiftingAppender进行分线程写日志，确实可以做到分线程写日志，但是观察TPS比之前更低
  - 原因:进入SiftingAppender前需要进入父类AppenderBase.doAppender(),这个是sync的，同步向上提高了，所以TPS比以前低很正常
4. 查看Appender接口，发现有实现类UnSyncAppenderBase,所以参考SiftingAppender实现
  - ➕类UnSyncSiftingAppenderBase extends UnSyncAppenderBase
  - ➕类ParrelSiftingAppender extends UnSyncSiftingAppenderBase
  - 修改SiftAction,注册上我写的ParrelSiftingAppender
5. 此时发现TPS提高了5倍左右，再用JMC分析，发现还有IO竞争
  - 原因:UnSyncSiftingAppenderBase类会调用AbstractComponentTracker的sync方法getOrCreate()
  - 因为AbstractComponentTracker用LinkedHashMap做LRU,LinkedHashMap非线程安全，➕sync正常
6. 用ConcurrentMap替代LinkedHashMap
  - ➕类AbstractConcurrentMapComponentTracker
  - ➕类ConcurrentMapAppenderTracker extends AbstractConcurrentMapComponentTracker
  - 修改UnSyncSiftingAppenderBase类调用AbstractConcurrentMapComponentTracker的getOrCreate()
7. TPS提高了10倍。
  - 原本业务中用到日志的地方都要修改，➕MDC.put("threadName", xxx)。
  - 自定义类ThreadDiscriminator继承ContextBasedDiscriminator就可以免去修改业务的所有日志的地方

JVM-排查问题
调优 by shihang.mai 内存泄漏申请的内存，无法释放。各种连接没CLose 典型例子ThreadL...
JVM-排查工具
ps -eLf | grep pid 查看进程的所有线程 jps -l 11839 kafka.Kafka 545...
JVM类加载器与双亲委派模型（JDK8）
引言在上文JVM-类加载机制[https://imchenway.com/2021/07/01/JVM-%E7%...
问题排查
一、看到文件写入错误和找不到文件错误，首先要想到是不是没有硬盘空间了。二、注意看日志，如果是Tomcat没有启动成...
问题排查
2020-01-24 cpu 100% 问题 1.找到最耗cpu的进程执行，显示进程运行信息列表键入P (大写p...
问题排查
原因出现这个报错，大多数是因为你使用了Android Studio自带的jdk导致解决方案使用系统中的jdk...
一种Java动态调试与热修复技术实践
Java动态问题排查修复工具问题排查基本思路问题排查是一个比较体系化的领域，'问题'来源于多种多样，按照我的理...
【SpringBoot】连接mysql数据库乱码
问题排查第一步排查前端到后端问题，检查controller收到的参数是否为乱码第二步排查编译器编码保存问题，检查编...
记一次OOM查询处理过程
问题的爆出及分析排查现场排查后的解决方案项目的jvm参数总结一、问题的爆出及分析排查现场服务偶尔会出现不...
游戏服务器线上问题排查定位实战
线上问题排查定位实战(游戏服务器) 监控先行线上常见问题问题排查、定位、解决参考、补充 Q & A 监控先行...