美文网首页Rust语言学习
RUST 学习日记 第14课 ——字符串(二)

RUST 学习日记 第14课 ——字符串(二)

作者: L我是小学生 | 来源:发表于2021-07-25 15:33 被阅读0次

    RUST 学习日记 第14课 ——字符串(二)


    0x00 回顾与开篇

    最近工作比较忙,更新频率慢了下来,希望大家谅解下。上节课初步了解了Rust的字符串,在Rust中有两种字符串类型,一种是可变长度字符串,也叫字符串切片,另一种则是不可变长度的字符串。也熟悉了简单使用它们的方法。这节课继续讲解字符串,深入到内存剖析Rust字符串。

    0x01 可变长度字符串String和向量Vector

    联系和区别

    上节提到过,可变长度字符串String其实是一个结构体,里面封装了Vec<T>,那么它跟向量又存在什么样的联系和区别呢?具体看下面的表格。

    Vec<T> String
    自动释放内存
    可扩展
    ::new()和::with_capacity()静态方法
    .reverse()和.capacity()方法
    .push()和.pop()方法
    范围语法s[start...end]
    自动转换 &Vec<T> 到 &[T] &String 到 &str
    继承方法 继承自 &[T] 继承自 &str
    String的构成

    String*类型的分别由三部分构成,分别与其三个方法相对应:

    1、as_ptr():指向堆中字节虚了的指针

    2、len():堆中字节序列的字节长度

    3、capacity():在堆上分配的容量

    示例代码如下:

        let mut hello = String::with_capacity(15);
        hello.push('h');
        hello.push('e');
        hello.push('l');
        hello.push('l');
        hello.push('o');
    
        println!("hello 字符串的内容 -> {}", hello);
    
        println!("hello 堆上的指针 -> {:p}", hello.as_ptr());
        println!("hello 的容量 -> {}", hello.capacity());
        println!("hello 的字节长度 -> {}", hello.len());
        
        println!("hello 栈上的指针 -> {:p}", &hello);
    

    代码运行结果:

    hello 字符串的内容 -> hello
    hello 堆上的指针 -> 0x1f20a76cd00
    hello 的容量 -> 15
    hello 的字节长度 -> 5
    hello 栈上的指针 -> 0x76a26ff7c0
    

    上面代码首先初始化了一个容量15的字符串hello。然后使用push方法,向其中添加了5个char类型的字符。

    然后输出字符串的内容,指针,容量,字节长度。注意最后的&hellohello.as_ptr()两个地址是不一样的。&hello获取的是字符串变量在栈上的指针地址,而hello.as_ptr()获取的是hello字符串在堆中字节序列的指针地址。具体内存模型,下面会讲到。

    0x02 字符串在内存的表示

    为什么Rust要设计两种字符串?它们有什么区别?前面讲了那么多,也都是概念,真正要搞明白它们之间的关系,还要深入到内存里面去剖析。下面就一起来剖析String&strstr,字面量的关系。

    以下面这几个变量为例:

    let hello_string = String::from("hello");
    let hello_str = &hello_string[1..];
    let hello_literal = "world";
    
    image

    hello_string是一个可变长度的字符串,它在内存中的结果与向量类似,真正的字符串则存放在堆上。在堆上给String分配一个可伸缩缓冲区,因此可以按需来调整其大小。

    hello_str是一个字符串切片,是对其它变量拥有的一段UTF-8文本的引用。它只是“借用”了这些文本而已。&str其实也是一个胖指针(Fat Pointer),包含实际数据的地址和其长度。可以把&str想象成一个&[u8],只不过他能存储格式完好的UTF-8。

    hello_literal是一个字符串字面量,它通常跟程序的机器码存储在预分配的只读内存区,当程序执行的时候创建,程序退出时会自动释放。

    扩展:什么是胖指针(Fat Pointer)?

    定义:胖指针(Fat Pointer)是一个双字宽的值,它除了指向对象的地之外,还会额外存储长度信息。

    通俗点说,普通指针通常是占内存8个字节,而胖指针则是占内存16个字节,因为它比较宽,所以叫胖指针。如切片(Slice)类型,它保存着指向堆上的地址和长度。

    如何理解str类型?

    在Rust中是没有GC的,程序的内存由编译器去分配,代码最终编译为LLVM IR,其携带了内存分配的信息。因此,要更合理的分配内存,编译器必须预先知道类型的大小。

    然而str则是无固定大小的字符串,它仅仅是个类型而已,无法确定其大小,在运行时之前没有人知道它的大小。而在Rust中,大部分的类型都是可以在编译期确定大小的类型(Sized Type),如:i32占4个字节,i64占8个字节,在程序编译期就可以确定它的大小。当然也存在动态大小的类型(Dynamic Sized Type),经常简称为DST,如:str,由于它无法在编译期确定大小,因此就不能声明。对于这种情况,在Rust则提供了引用类型,字符串切片的引用类型&str。因为它是胖指针,可以在编译期确定大小哦。

    0x03 小结

    str字符串序列存储于程序的堆内存中或者静态只读区。而&strString都存储在栈上,指针指向strstr在Rust中仅仅作为一个类型存在。那么在一个程序中到底是使用&str还是String呢?由于所有权的知识还没介绍过,所以这里先不讨论这个问题。现在只需知道&str可以引用任何字符串的任意切片即可。在这节课里涉及了很多关于内存的知识,后面我也会抽时间讲下有关内存的一些概念。下节课主要讲解下字符串的简单常用方法。

    0x04 本节源码

    014 · StudyRust - 码云 - 开源中国 (gitee.com)

    下节预告——字符串的常用方法。

    相关文章

      网友评论

        本文标题:RUST 学习日记 第14课 ——字符串(二)

        本文链接:https://www.haomeiwen.com/subject/bzfimltx.html