C/C++ 字符串的编码

作者: fylsle | 来源:发表于2019-03-30 15:30 被阅读0次

C++ Builder 的字符串类型、字符类型、字符编码
C/C++ 字符串的编码
C++字符串，字符集，字符转换和各种乱码原因
C_C++ 字符串数字的转换
C++ GBK编码字符切割
C++<第十九篇>：字符串
c++传递字符串给c#使用问题
C++编码规范
C++ 字符串
编码规范（一）越是建议的编码规范越会令团队纠结

C/C++ 字符串的编码

字符串的编码需从两个方面考虑
1. 在源文件中存储时的编码
2. 在内存(运行时)和可执行文件中的编码

字符串在源文件中存储时的编码

此时的编码依赖于源文件的编码。比如源文件的编码是utf-8，那么这个字符串在文件中的编码就是utf-8。

源文件编码	字符串编码
utf-8	utf-8
ucs-16/32	ucs-16/32
gb2312	gb2312
......	......

字符串在内存(运行时)和可执行文件中的编码

分两种情况，使用 L 修饰符和不用 L 修饰符

使用 wchar_t 类型和 L 修饰符

 const wchar_t  wstring = L"你好，ABC！！！";
cout<<"wchar_t size: "<<sizeof(wchar_t)<<endl;

此时字符串 wsting 在内存中的编码依赖编译器的具体实现，可能是ucs16也可能是ucs32
输出：
Windows平台: wchar_t size: 2
Linux平台: wchar_t size: 4

使用 char 类型不用 L 修饰符，

const char * string = "你好，ABC！！！";

此时字符串string 在内存中以字节流的形式存在，其编码和在源文件中存储时的编码一致（编译器支持该编码）。

小结

在使用 char 类型时，如果想在运行时使用某种编码，源文件的编码最好和其一致，不然就要进行编码转化了，增加了额外的运算量。
使用 wchar_t 类型时，需同时使用 L 修饰符，其在运行时的编码类型固定为 ucs16/32，源文件的编码类型不会影响到运行时的编码类型。
例如

// 一个汉字
char *str = "你";
char *wstr = L"你";
cout<<"len1: "<<strlen(str)<<endl;
cout<<"len2: "<<wcslen(wstr)<<endl;

输出
在源文件编码为 utf-8 时：
len1：3
len2：1

在源文件编码为gb2312时：
len1：2
len2：1

字符串编码的转换

呵呵，这是另外一个话题了。。。

网友评论

C/C++

本文标题：C/C++ 字符串的编码

本文链接：https://www.haomeiwen.com/subject/przjbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

C/C++ 字符串的编码

C/C++ 字符串的编码

字符串在源文件中存储时的编码

字符串在内存(运行时)和可执行文件中的编码

使用 wchar_t 类型和 L 修饰符

使用 char 类型不用 L 修饰符，

小结

字符串编码的转换

相关文章

C++ Builder 的字符串类型、字符类型、字符编码