美文网首页
Python和Go的字符串拼接操作

Python和Go的字符串拼接操作

作者: lwhile | 来源:发表于2017-10-11 23:03 被阅读62次

某个午后逛Golang中国社区,看到一个问题
一个简单的字符串性能测试

凭着对一些语言的浅薄了解,稍微回答了下:

"在Java中也得到相同的结果.
Go/Java/C#这类静态语言中,String类型的value是不可变的.每次对字符串的”+”操作,都需要重新复制一遍原字符串.
所以这些语言涉及到对长字符串的操作,都不推荐使用”+”,而是类似Join或者切片之类的东西."

但是后来才想起,Python中的String类似也是不可变的.这么一来为什么我的回答就错了.
既然String类型不可变,在Python中势必会生成新的对象.可是为什么速度那么快 ?

在Google搜了一圈找不到可用的信息,去看源码又不知道入口在哪.于是只能上StackOverflow提问了.
What is the different from string's “+” operation between Golang and Python?

目前为止StackOverflow还没有一个回答,但热心网友对该问题的评论已经给出了很多重要的信息.

顺着他们给出的信息,加上我自己的探索,做出如下的总结:

  1. 在Python中,对字符串的'+='操作,是被优化过的

    在Python中String显然是不可变类型,但解释器(指CPython,下同)遇到形如 str_x += str_y 或者 str_x = str_x + str_y的表达式,还是会取巧得改变String的值,但要求很严格:左值没有被其他表达式引用,且满足二元操作.

    s = ''
    for i in range(100000):
        s += 'test' # or s = s + 'test'
    
    #Out: 0:00:00.019121
    

    但是,若不满足二元操作或被其他表达式引用,即像这样:

    str_x = str_x + str_y + str_z
    

    str_x += str_x + str_y + str_z
    

    str_x = str_x + str_y
    str_a += str_x
    #(↑循环10w次飙完了我的内存)
    

    解释器就不会进行优化.

  2. 还是建议不要使用'+='操作,应该使用join函数.

    尽管这样写有可能让代码看起来更简洁,但一留神就容易出错.当数据量非常大时,就等着哭吧,而且有可能因为不断进行新对象的创建,又被其他表达式引用导致无法被GC清除掉,一下子彪完你的内存,上面就是一个例子.

  3. Go的优化方法

    Go或Java这类语言中String类型是严格不变的,不会有类似Python的取巧优化.下面给出两个来自StackOverflow的Go字符串拼接的正确姿势:

    1. 使用bytes.Buffer类型:
      var buffer bytes.Buffer
      for n := 0; n < 100000; n++ {
          buffer.WriteString("test")
      }
      
    2. 使用copy函数
    bs := make([]byte, 100000)
    bl := 0
    for n := 0; n < 100000; n++ {
        bl += copy(bs[bl:], "test")
    }
    

    方法二是效率是方法一的15倍左右,而方法一是"+="操作的10w倍.

相关文章

网友评论

      本文标题:Python和Go的字符串拼接操作

      本文链接:https://www.haomeiwen.com/subject/wrigyxtx.html