美文网首页
python字符串实现

python字符串实现

作者: lintong | 来源:发表于2015-02-25 17:20 被阅读285次

    字符串对象定义:

    typedef struct {
        PyObject_VAR_HEAD
        long ob_shash;
        int ob_sstate;
        char ob_sval[1];
    } PyStringObject;
    

    由于字符串是变长对象,所以有变长对象头。
    ob_shash用来缓存当前字符串的哈希值,这在以字符串作为key的dict对象查询时非常有用。
    ob_sstate用来标记该字符串是否为interned。
    最后这个ob_sval比较巧妙,定义的是一个字符的数组,他的作用其实是作为实际分配内存后,字符串缓冲区的指针。
    在实际给字符串对象分配内存时,Python申请的内存大小为PyStringObject + 字符串长度。
    Python规定字符串缓冲区末尾必须是'\0',所以由ob_sval实际指向的缓冲区的长度刚好是length + 1,而ob_sval正好又是字符串对象尾部缓冲区的指针。

    字符串的intern机制

    字符串对象的intern机制:对于相同的两个字符串,Python不会为其创建两个字符串对象,以节省内存。
    intern机制由一个全局的intern字典维护。当新建一个字符串时,运行时会在intern字典中查询是否已经存在这个字符串,如果存在,则直接增加字典里的字符串对象的引用计数;如果不存在,则将其添加到字典中。
    和整数对象一样,字符串对象同样有对象池机制提供对ASCII码对象的快速引用。其原理是,当字符串被创建时,PyString_FromString函数会检查字符串长度,如果长度为1,则先创建字符串,然后intern字符串,最后将字符串对象指针保存在characters对象池中。以后访问字符串,如果长度为1,就直接从对象池中返回对象指针。

    字符串的拼接操作

    关于字符串拼接的效率:字符串拼接有两种方式,“+”操作符和str.join(iterable)函数。
    “+”操作符会调用string_concat函数。它会重新申请一块内存,然后将两个字符串复制到新的内存中,返回一个字符串对象。也就是说,N个字符串拼接会调用N-1次string_concat函数,即申请N-1次内存,效率是非常底下的。
    所以官方推荐str.join(iterable)函数,它接受一个list或tuple等可迭代对象,统计有多少个字符串,统一分配一次内存,然后复制左右字符串到新内存中,并返回字符串对象。可见后者效率要高很多

    相关文章

      网友评论

          本文标题:python字符串实现

          本文链接:https://www.haomeiwen.com/subject/yaxpxttx.html