string源码分析

作者: smallest_one | 来源:发表于2018-04-25 09:30 被阅读208次

Swift探索（十一）: String源码分析
String源码分析2 字符串拼接
String源码分析
string源码分析
String源码分析
String源码分析
String源码分析
String源码分析
String源码分析
String源码分析

gnustl 4.9的源码：
https://gcc.gnu.org/onlinedocs/gcc-4.9.4/libstdc++/api/files.html

1. std::string的定义

string是basic_string的一个实例化类，定义在stringfwd.h中

typedef  basic_string<char> string;//stringfwd.h

basic_string.h文件定义了basic_string模板类

template<typename _CharT, typename _Traits, typename _Alloc> class basic_string;//basic_string.h

basic_string.tcc存放了一些模板类的成员的实现。c++里面模板的实现不能放在.cpp文件中，必须写在头文件中，如果模板函数实现较复杂，就会导致头文件臃肿和杂乱，这里可以看到stl里面方法，就是把较复杂的实现放在.tcc文件里面，然后当做头文件来包含，我们在写模板代码的时候也可以以此为参考。

string在栈内存空间上只占用一个指针(_CharT* _M_p)的大小空间，因此sizeof(string)==8。其他信息都存储在堆内存空间上。
问题1：定义一个空的string变量共带来多大的内存开销呢？

string name;

这个问题稍后解答。

2. std::string内存布局

下面通过常见的用法来剖析一下string对象内存布局情况。
例如：

string name(“jack”);

basic_string.h中有很多英文注释，大致介绍了basic_string的特点和优势，其中有一段是这样的：

   *  A string looks like this:
   *
   *  @code
   *                                     [_Rep]
   *                                     _M_length
   *  [basic_string<char_type>]          _M_capacity
   *  _M_dataplus                        _M_refcount
   *  _M_p ---------------->             unnamed array of char_type
   *  @endcode

这里其实是介绍了basic_string的内存布局，从起始地址出开始，_M_length表示字符串的长度、_M_capacity是最大容量、_M_refcount是引用计数，_M_p指向实际的数据。值得注意的是引用计数，说明该版本的string实现采用了copy-on-write的方式来减少无意义的内存拷贝。整体内存布局如下：

image
根据上图推测，一个空string，没有数据，内部开辟的内存应该是83=24字节，而sizeof(string)的值似乎为84=32字节，因为需要存储四个变量的值。而实际上并不是这样。

c++对象的大小(sizeof)由非静态成员变量决定，静态成员变量和成员函数不算在内。通读basic_string.h，非静态成员变量只有一个：

mutable _Alloc_hider  _M_dataplus;

_Alloc_hider是个结构体类型，其定义如下：

struct _Alloc_hider : _Alloc
{
    _CharT* _M_p; // The actual data.
};

_Alloc是分配器，没有成员变量，其对象大小（sizeof）为0，_M_p是指向实际数据的指针，当调用string::data()或者string::c_str()时返回的也是该值。因此sizeof(string)的大小为8，等于该指针的大小.

basic_string的构造函数定义如下：

basic_string(const _CharT* __s, const _Alloc& __a = _Alloc());

// TBD: DPG annotate
template<typename _CharT, typename _Traits, typename _Alloc>
  basic_string<_CharT, _Traits, _Alloc>::basic_string(const _CharT* __s, const _Alloc& __a)
  : _M_dataplus(_S_construct(__s, __s ? __s + traits_type::length(__s) : __s + npos, __a),__a)
{ }

该构造函数直接调用 _S_construct 来构造对象，定义如下：

//basic_string.tcc
template<typename _CharT, typename _Traits , typename _Alloc>
template<typename _InIterator>
_CharT*
basic_string<_CharT , _Traits, _Alloc>::
_S_construct(_InIterator __beg, _InIterator __end , const _Alloc& __a ,
             input_iterator_tag)
{
    // Avoid reallocation for common case.
    _CharT __buf[128];
    size_type __len = 0;
    while ( __beg != __end && __len < sizeof(__buf ) / sizeof( _CharT))
    {
        __buf[__len ++] = *__beg;
        ++ __beg;
    }

    //构造一个 _Rep 结构体，同时分配足够的空间，具体见下面内存映像图示
    _Rep* __r = _Rep ::_S_create( __len, size_type (0), __a);

    //拷贝数据到 string对象内部
    _M_copy( __r->_M_refdata (), __buf, __len);
    __try
    {
        while (__beg != __end)
        {
            if (__len == __r-> _M_capacity)
            {
                // Allocate more space.
                _Rep* __another = _Rep:: _S_create(__len + 1, __len, __a);
                _M_copy(__another ->_M_refdata(), __r->_M_refdata (), __len);
                __r->_M_destroy (__a);
                __r = __another ;
            }
            __r->_M_refdata ()[__len++] = * __beg;
            ++ __beg;
        }
    }
    __catch(...)
    {
        __r->_M_destroy (__a);
        __throw_exception_again;
    }
    //设置字符串长度、引用计数以及赋值最后一个字节为结尾符 char_type()
    __r-> _M_set_length_and_sharable(__len );

    //最后，返回字符串第一个字符的地址
    return __r->_M_refdata ();
}

_Rep ::_S_create的定义：

//basic_string.tcc
template<typename _CharT, typename _Traits , typename _Alloc>
typename basic_string <_CharT, _Traits, _Alloc >::_Rep*
basic_string<_CharT , _Traits, _Alloc>::_Rep ::
_S_create(size_type __capacity, size_type __old_capacity ,
          const _Alloc & __alloc)
{
    // 需要分配的空间包括：
    //  一个数组 char_type[__capacity]
    //  一个额外的结尾符 char_type()
    //  一个足以容纳 struct _Rep 空间
    // Whew. Seemingly so needy, yet so elemental.
    size_type __size = (__capacity + 1) * sizeof( _CharT) + sizeof (_Rep);

    void* __place = _Raw_bytes_alloc (__alloc). allocate(__size ); //申请空间

    _Rep * __p = new (__place) _Rep;// 在地址__place 空间上直接 new对象( 称为placement new)
    __p-> _M_capacity = __capacity ;
    __p-> _M_set_sharable();// 设置引用计数为0，标明该对象只为自己所有
    return __p;
}

_Rep定义如下：

//basic_string.h
struct _Rep_base
{
    size_type               _M_length;
    size_type               _M_capacity;
    _Atomic_word            _M_refcount;
};

至此，我们可以回答上面“问题1”中提出的问题，
上文中”string name;”这个name对象所占用的总空间为33个字节，具体如下：

sizeof(std::string) + 0 + sizeof('') + sizeof(std::string::_Rep)

其中：sizeof(std::string)为栈空间

上文中的提到的另一条C++语句 string name(“jack”); 定义了一个string变量name，其内存空间布局如下：

image

3. Copy-On-Write

3.1 程序示例：

请先看一段测试代码：

#include <assert.h>
#include <iostream>
#include <string>

using namespace std;

int main ()
{
    string a = "0123456789abcdef" ;
    string b = a ;
    cout << "a.data() =" << (void *)a. data() << endl ;
    cout << "b.data() =" << (void *)b. data() << endl ;
    assert( a.data () == b. data());
    cout << endl;

    string c = a ;
    cout << "a.data() =" << (void *)a. data() << endl ;
    cout << "b.data() =" << (void *)b. data() << endl ;
    cout << "c.data() =" << (void *)c. data() << endl ;
    assert( a.data () == c. data());

    cout << endl;
    c[0] = '1';
    cout << "after write:\n";
    cout << "a.data() =" << (void *)a. data() << endl ;
    cout << "b.data() =" << (void *)b. data() << endl ;
    cout << "c.data() =" << (void *)c. data() << endl ;
    assert( a.data () != c. data() && a .data() == b.data ());
    return 0;
}

运行之后，输出：

a.data() =0xc22028
b.data() =0xc22028

a.data() =0xc22028
b.data() =0xc22028
c.data() =0xc22028

after write:
a.data() =0xc22028
b.data() =0xc22028
c.data() =0xc22068
上述代码运行的结果输出可看出，在对b、c赋值之后，a、b、c三个string对象的内部数据的内存地址是一样的。只有当我们对c对象进行修改之后，c对象的内部数据的内存地址才不一样，这一点是如何做到的呢？接下来分析源码一看究竟。

3.2 string copy的源码分析

//拷贝构造函数
basic_string(const basic_string& __str)
: _M_dataplus( __str._M_rep ()->_M_grab( _Alloc(__str .get_allocator()),
              __str.get_allocator ()),
              __str.get_allocator ())
{}

_CharT* _M_grab(const _Alloc& __alloc1, const _Alloc& __alloc2)
{
    return (! _M_is_leaked() && __alloc1 == __alloc2)
        ? _M_refcopy() : _M_clone (__alloc1);
}

_CharT*_M_refcopy() throw ()
{
#ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
    if ( __builtin_expect(this != &_S_empty_rep(), false))
#endif
        __gnu_cxx::__atomic_add_dispatch (&this-> _M_refcount, 1);
    return _M_refdata();
}

先后调用了basic_string (const basic_string& __str )拷贝构造函数、_M_grab、_M_refcopy，
_M_refcopy实际上就是调用原子操作__atomic_add_dispatch (确保线程安全)将引用计数+1，然后返回原对象的数据地址。
由此可以看到，string对象之间的拷贝/赋值代价非常非常小。

几个赋值语句之后，a、b、c对象的内存空间布局如下图所示：

image

下面再来看”c[0] = ‘1’; “做了些什么：

reference operator []( size_type __pos )
{
    _M_leak();
    return _M_data ()[__pos ];
}

void _M_leak ()    // for use in begin() & non-const op[]
{
    //前面看到 c 对象在此时实际上与a对象的数据实际上指向同一块内存区域
    //因此会调用 _M_leak_hard()
    if (! _M_rep ()->_M_is_leaked ())
        _M_leak_hard ();
}

void _M_leak_hard ()
{
    if ( _M_rep ()->_M_is_shared ())
        _M_mutate (0, 0, 0);
    _M_rep()-> _M_set_leaked ();
}

void _M_mutate ( size_type __pos , size_type __len1, size_type __len2 )
{
    const size_type __old_size = this-> size ();//16
    const size_type __new_size = __old_size + __len2 - __len1 ; //16
    const size_type __how_much = __old_size - __pos - __len1 ; //16

    if ( __new_size > this -> capacity() || _M_rep ()->_M_is_shared ())
    {
        // 重新构造一个对象
        const allocator_type __a = get_allocator ();
        _Rep * __r = _Rep:: _S_create (__new_size , this-> capacity (), __a );

        // 然后拷贝数据
        if (__pos )
            _M_copy (__r -> _M_refdata(), _M_data (), __pos );
        if (__how_much )
            _M_copy (__r -> _M_refdata() + __pos + __len2 ,
            _M_data () + __pos + __len1, __how_much );

        //将原对象上的引用计数减
        _M_rep ()->_M_dispose ( __a);

        //绑定到新的对象上
        _M_data (__r -> _M_refdata());
    }
    else if (__how_much && __len1 != __len2 )
    {
        // Work in-place.
        _M_move (_M_data () + __pos + __len2 ,
            _M_data () + __pos + __len1, __how_much );
    }

    //最后设置新对象的长度和引用计数值
    _M_rep()-> _M_set_length_and_sharable (__new_size );
}

上面源码稍微复杂点，对c进行修改的过程分为以下两步：

判断是否为共享对象，(引用计数大于0)，如果是共享对象，就拷贝一份新的数据，同时将老数据的引用计数值减1。
在新的地址空间上进行修改，从而避免了对其他对象的数据污染。

由此可以看出，如果不是通过string提供的接口对string对象强制修改的话，会带来潜在的不安全性和破坏性。例如：

char* p = const_cast<char*>(s1.data());
p[0] = 'a';

上述代码对c修改(“c[0] = ‘1’; “)之后，a b c对象的内存空间布局如下：

image

4.总结

即使是一个空string对象，其所占内存空间也达到33字节，因此在内存使用要求比较严格的应用场景，请慎重考虑使用string。
string由于使用引用计数和Copy-On-Write技术，相对于strcpy，string copy的性能提升非常显著。
使用引用计数后，多个string指向同一块内存区域，因此，如果强制修改一个string的内容，会影响其他string。

参考：

Swift探索（十一）: String源码分析
一：String 的内存布局 1. String 源码分析在 Swift源码[https://github.co...
String源码分析2 字符串拼接
有关String的源码分析，可以查看一下我的前一篇文章：String源码分析要理解String的拼接过程，先要理...
String源码分析
从一段代码说起： public void stringTest(){ String a = "a"+"b"+1...
string源码分析
gnustl 4.9的源码：https://gcc.gnu.org/onlinedocs/gcc-4.9.4/li...
String源码分析
功能简介 String 可以代表字符串，在代码中的字符串常量，如"abc", 实现上都是String类的实例。 S...
String源码分析
直接进入正题，看源码： String类里面用来存储value的是一个final数组，不允许修改字符串长度就是返...
String源码分析
String源码分析从一段代码说起：大家猜一猜结果如何？如果你的结论是true。好吧，再来一段代码：结果如何...
String源码分析
概述在分析String的源码之前，打算先介绍一点关于JVM的内存分布，这样有助于我们更好地去理解String的设...
String源码分析
从一段代码说起：大家猜一猜结果如何？如果你的结论是true。好吧，再来一段代码：结果如何呢？正确答案是fals...
String源码分析
从一段代码说起：大家猜一猜结果如何？如果你的结论是true。好吧，再来一段代码：结果如何呢？正确答案是fals...

string源码分析

1. std::string的定义

2. std::string内存布局

3. Copy-On-Write

3.1 程序示例：

3.2 string copy的源码分析

4.总结

相关文章

Swift探索（十一）: String源码分析

String源码分析2 字符串拼接

String源码分析

string源码分析

String源码分析

String源码分析

String源码分析

String源码分析

String源码分析

String源码分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读