美文网首页C/C++
C/C++ 字符串的编码

C/C++ 字符串的编码

作者: fylsle | 来源:发表于2019-03-30 15:30 被阅读0次

C/C++ 字符串的编码

字符串的编码需从两个方面考虑
1. 在源文件中存储时的编码
2. 在内存(运行时)和可执行文件中的编码

字符串在源文件中存储时的编码

此时的编码依赖于源文件的编码。比如源文件的编码是utf-8,那么这个字符串在文件中的编码就是utf-8。

源文件编码 字符串编码
utf-8 utf-8
ucs-16/32 ucs-16/32
gb2312 gb2312
...... ......

字符串在内存(运行时)和可执行文件中的编码

分两种情况,使用 L 修饰符和不用 L 修饰符

使用 wchar_t 类型和 L 修饰符

 const wchar_t  wstring = L"你好,ABC!!!";
cout<<"wchar_t size: "<<sizeof(wchar_t)<<endl;

此时字符串 wsting 在内存中的编码依赖编译器的具体实现,可能是ucs16也可能是ucs32
输出:
Windows平台: wchar_t size: 2
Linux平台: wchar_t size: 4

使用 char 类型不用 L 修饰符,

const char * string = "你好,ABC!!!";

此时字符串string 在内存中以字节流的形式存在,其编码和在源文件中存储时的编码一致(编译器支持该编码)。

小结

在使用 char 类型时,如果想在运行时使用某种编码,源文件的编码最好和其一致,不然就要进行编码转化了,增加了额外的运算量。
使用 wchar_t 类型时,需同时使用 L 修饰符,其在运行时的编码类型固定为 ucs16/32,源文件的编码类型不会影响到运行时的编码类型。
例如

// 一个汉字
char *str = "你";
char *wstr = L"你";
cout<<"len1: "<<strlen(str)<<endl;
cout<<"len2: "<<wcslen(wstr)<<endl;

输出
在源文件编码为 utf-8 时:
len1:3
len2:1

在源文件编码为gb2312时:
len1:2
len2:1

字符串编码的转换

呵呵,这是另外一个话题了。。。

相关文章

网友评论

    本文标题:C/C++ 字符串的编码

    本文链接:https://www.haomeiwen.com/subject/przjbqtx.html