美文网首页Java 进阶
String源码分析2 字符串拼接

String源码分析2 字符串拼接

作者: 小帝Ele | 来源:发表于2016-09-21 16:20 被阅读78次

    有关String的源码分析,可以查看一下我的前一篇文章:String源码分析

    要理解String的拼接过程,先要理解以下几个概念

    1.不可变的String


    我们总是说String对象是不可变的,那到底是什么导致不可变?
    首先谈一谈Java的机制,String在编译阶段会把已知的字面量放在常量池中,详细可以参考Java-常量池

    String源码分析里可以看到,String实质是一个char数组,初始化字符串有两种方式:

    String a = "java";
    
    String b = new String("java");
    

    当使用=赋值的时候,相当于把String的变量指java常量池中的"java";
    而使用new赋值的时候则会在java堆中重新分配空间存放"java"。
    无论是以上哪种方式生成的字符串,在生成结束后都是一个已知长度的char数组。大家都知道,数组的长度是不可改变的。

    当String变量重新赋值的时候,实则是将变量指向java常量池的另一个制,又或者是在java堆中重新分配空间存放。
    而String类中每一个看起来会修改String值的方法,实际上都是创建了一个全新的String对象,则新的char数组,以包含修改后的字符串内容。

    因此说,String是不可变的。

    2.重载“+”


    在Java中,唯一被重载的运算符就是用于String的“+”与“+=”。除此之外,Java不允许程序员重载其他的运算符。

    public class StringTest {
        String a = "abc";
        String b = "mongo";
        String info = a + b + 47;
    }
    

    String对象是不可变的,所以在上述的代码过程中可能会是这样工作的:
    1. "abc" + "mongo" 创建新的String对象abcmongo;
    2. "abcmongo" + "47" 创建新的String对象abcmongo47;
    3. 引用info 指向最终生成的String。
    但是这种方式会生成一大堆需要垃圾回收的中间对象,性能相当糟糕。

    编译器的优化处理

    Compiled from "StringTest.java"
    public class StringTest {
      java.lang.String a;
    
      java.lang.String b;
    
      java.lang.String info;
    
      public StringTest();
        Code:
           0: aload_0
           1: invokespecial #12                 // Method java/lang/Object."<init>":
    ()V
           4: aload_0
           5: ldc           #14                 // String abc
           7: putfield      #16                 // Field a:Ljava/lang/String;
          10: aload_0
          11: ldc           #18                 // String mongo
          13: putfield      #20                 // Field b:Ljava/lang/String;
          16: aload_0
          17: new           #22                 // class java/lang/StringBuilder
          20: dup
          21: aload_0
          22: getfield      #16                 // Field a:Ljava/lang/String;
          25: invokestatic  #24                 // Method java/lang/String.valueOf:(
    Ljava/lang/Object;)Ljava/lang/String;
          28: invokespecial #30                 // Method java/lang/StringBuilder."<
    init>":(Ljava/lang/String;)V
          31: aload_0
          32: getfield      #20                 // Field b:Ljava/lang/String;
          35: invokevirtual #33                 // Method java/lang/StringBuilder.ap
    pend:(Ljava/lang/String;)Ljava/lang/StringBuilder;
          38: bipush        47
          40: invokevirtual #37                 // Method java/lang/StringBuilder.ap
    pend:(I)Ljava/lang/StringBuilder;
          43: invokevirtual #40                 // Method java/lang/StringBuilder.to
    String:()Ljava/lang/String;
          46: putfield      #44                 // Field info:Ljava/lang/String;
          49: return
    }
    

    反编译以上代码会发现,编译器自动引入了StringBuilder类。
    编译器创建了一个StringBuilder对象,并调用StringBuilder.append()方法,最后调用toString()生成结果,从而避免中间对象的性能损耗。

    编译器优化String对象的连接,而下面这种情况会直接连接作为常量。

    public class StringTest {
        String info = "Andy" + "24" + "Developer";
    }
    
    Compiled from "StringTest.java"
    public class StringTest {
      java.lang.String info;
    
      public StringTest();
        Code:
           0: aload_0
           1: invokespecial #10                 // Method java/lang/Object."<init>":
    ()V
           4: aload_0
           5: ldc           #12                 // String abcmongo47
           7: putfield      #14                 // Field info:Ljava/lang/String;
          10: return
    }
    

    3.编译器的优化是有限度的


    • 性能较低的代码
    public void  implicitUseStringBuilder(String[] values) {
       String result = "";
       for (int i = 0 ; i < values.length; i ++) {
           result += values[i];
       }
       System.out.println(result);
     }
    
    public void implicitUseStringBuilder(java.lang.String[]);
    Code:
      0: ldc           #11                 // String 
      2: astore_2
      3: iconst_0
      4: istore_3
      5: iload_3
      6: aload_1
      7: arraylength
      8: if_icmpge     38
     11: new           #5                  // class java/lang/StringBuilder
     14: dup
     15: invokespecial #6                  // Method java/lang/StringBuilder."<init>":()V
     18: aload_2
     19: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
     22: aload_1
     23: iload_3
     24: aaload
     25: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
     28: invokevirtual #8                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
     31: astore_2
     32: iinc          3, 1
     35: goto          5
     38: getstatic     #9                  // Field java/lang/System.out:Ljava/io/PrintStream;
     41: aload_2
     42: invokevirtual #10                 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
     45: return
    

    其中8: if_icmpge 3835: goto 5构成了一个循环。

    8: if_icmpge 38的意思是如果(i < values.length的相反结果)成立,则跳到第38行(System.out)。

    35: goto 5则表示直接跳到第5行。

    但是这里面有一个很重要的就是StringBuilder对象创建发生在循环之间,也就是意味着有多少次循环会创建多少个StringBuilder对象,这样明显性能较低。

    • 性能较高的代码
    public void explicitUseStringBuider(String[] values) {
       StringBuilder result = new StringBuilder();
       for (int i = 0; i < values.length; i ++) {
           result.append(values[i]);
       }
     }
    
    public void explicitUseStringBuider(java.lang.String[]);
    Code:
      0: new           #5                  // class java/lang/StringBuilder
      3: dup
      4: invokespecial #6                  // Method java/lang/StringBuilder."<init>":()V
      7: astore_2
      8: iconst_0
      9: istore_3
     10: iload_3
     11: aload_1
     12: arraylength
     13: if_icmpge     30
     16: aload_2
     17: aload_1
     18: iload_3
     19: aaload
     20: invokevirtual #7                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
     23: pop
     24: iinc          3, 1
     27: goto          10
     30: return
    

    从上面可以看出,13: if_icmpge 3027: goto 10构成了一个loop循环,而0: new #5位于循环之外,所以不会多次创建StringBuilder.

    综上,循环体中需要尽量避免隐式或者显式创建StringBuilder。

    不过有种特殊情况,当final修饰的变量发生连接动作时,虚拟机会进行优化,将表达式结果直接赋值给目标变量:

    public class StringTest {
        public static void main(String[] args) {
            final String a = "hello ";
            final String b = "world";
            String c = a + b;
            String d = "hello world";
        }
    }
    

    编译后字节码如下:

    4.StringBuilder


    连接符号 "+" 本质
    在上文讨论后得知,字符串变量(非final修饰)通过 "+" 进行拼接,在编译过程中会转化为StringBuilder对象的append操作,注意是编译过程,而不是在JVM中。

    性能问题
    StringBuilder内部维护了一个char[]类型的value,用来保存通过append方法添加的内容,通过 new StringBuilder()初始化时,char[]的默认长度为16,如果append第17个字符,会发生什么?

    void expandCapacity(int minimumCapacity) {
        int newCapacity = value.length * 2 + 2;
        if (newCapacity - minimumCapacity < 0)
            newCapacity = minimumCapacity;
        if (newCapacity < 0) {
            if (minimumCapacity < 0) // overflow
                throw new OutOfMemoryError();
            newCapacity = Integer.MAX_VALUE;
        }
        value = Arrays.copyOf(value, newCapacity);
    }
    

    如果value的剩余容量,无法添加全部内容,则通过expandCapacity(int minimumCapacity)方法对value进行扩容,其中minimumCapacity = 原value长度 + append添加的内容长度。

    相关文章

      网友评论

        本文标题:String源码分析2 字符串拼接

        本文链接:https://www.haomeiwen.com/subject/cvsaettx.html