美文网首页C/C++
(三十四)中文问题

(三十四)中文问题

作者: RGiskard | 来源:发表于2018-11-09 14:18 被阅读0次

ASCII码

ASCII码就是一个字符集,0-127之间,最高位0

每一个字符都对应一个数字

'A' == 65

'0' == 48

字符集都由一些组织制定发布,例如ISO/IEC,ASCII码的字符集编号为ISO/IEC 646

拉丁字符集Latin

包括希腊字母,Latin-1是西欧字符,Latin-2是东欧字符

拉丁字符的总数超过了256个,无法用char型表示,得用两个字节

char a = 'α';//错误!问题原因:无法只用一个字节表示一个字符

拉丁字符最高位为1

中文字符集

GB2312 中文简体国标码

GBK 扩展中文GB编码(兼容GB2312)

GB18030 用1-4个字节编码,容量超大

BIG5 中文繁体编码

CJK 中日韩大字符集编码

Unicode 统一码,用0 - 0x10FFFF来映射全球各国的文字

GB2312/GBK

GB2312不包括一些生僻字,GBK>GB2312

中文windows默认GBK编码

一个中文字符占有两个字节

Unicode
  • UTF-32

    每个字符用一个int存,简单,但太浪费空间

    abcd->16个字节

  • UTF-16

    每个字符用1~2个short来表示。我->2个字节,a->2个字节

  • UTF-8

    每个字符用1~4个字节来表示,节省空间。我->3个字节,a->1个字节

    Linux字体默认UTF-8

字符编码的转换

若你的字符串是GBK编码,而别人要求UTF16,强制发过去只能得到乱码了。

VC下的转换方法

用wchar_t代表宽字符,相当于short类型,一个wchar_t的数组来存放Unicode字符

#include <stdio.h>
#include <stdlib.h>

// 头文件
#include <winsock2.h>
#include <windows.h>

// GBK -> UTF-16
int test1()
{
    //char text_gbk[] = { 0xC9, 0xDB, 0xB7, 0xA2, 0};
    char text_gbk[] = "邵发"; // 字符串字面常量,取决于cpp文件本身的字符集
    wchar_t text_utf16[256] = {0};
    int n = MultiByteToWideChar(
        CP_ACP, //当前cpp的编码,也就是GBK
        0, 
        text_gbk, 
        strlen(text_gbk), 
        text_utf16, 
        256);

    printf("结果: %d 个宽字符 \n", n);

    int n = sizeof(text_gbk);

    return 0;
}

// GBK -> UTF-16 -> UTF-8
int test2()
{
    char text_gbk[] = "邵发"; // 字符串字面常量,取决于cpp文件本身的字符集

    //
    wchar_t text_utf16[256] = {0};
    int n1 = MultiByteToWideChar(
        CP_ACP, 
        0, 
        text_gbk, 
        strlen(text_gbk), 
        text_utf16, 
        256);
    printf("结果: %d 个宽字符 \n", n1);
    
    // 
    char text_utf8[256];
    int n2 = WideCharToMultiByte(
        CP_UTF8, 
        0, 
        text_utf16, 
        n1, 
        text_utf8, 
        256, 
        NULL, 
        0);
    printf("结果: %d 个字节 \n", n2);

    return 0;
}

int main()
{
    //test1();
    test2();

    return 0;
}

相关文章

  • (三十四)中文问题

    ASCII码 ASCII码就是一个字符集,0-127之间,最高位0 每一个字符都对应一个数字 'A' == 65 ...

  • (三十四)写给孙中文

    文/半夏 文文同学: 你好! 初三这一年,你不断刷新我对你的认识。一开始,我根本没有注意到你,因为你个子小,...

  • Day_04_Servlet

    request获得中文参数乱码问题 response返回中文乱码问题 跳转

  • 中文乱码问题

    1、使用idea新建maven web项目后控制台输出乱码 添加 -Dfile.encoding=UTF-8 2、...

  • 中文乱码问题

    //处理poset提交方法,参数的中文乱码 request.setCharacterEncoding("utf8"...

  • 中文乱码问题

    表单中文为什么会出现乱码 浏览器会对表单的中文参数进行编码,具体采用何种编码方式要看改表单所在的页面指定的编码方式...

  • NSURL中文问题

    NSString *testurl = @"https://www.lalala.com/xiangce/我的第二...

  • Sublime中文问题

    Sublime如果发生中文问题,需要安装插件,目前两种解决方案:1.GBK Encoding Support;2....

  • 中文乱码问题

    jsp 传输url中参数中文乱码 可以考虑使用utf-8编码,如果是用js提交可以这样:var url = "b....

  • 中文乱码问题

    传输过来是乱码 post request.setCharacterEncoding("utf-8"); get n...

网友评论

    本文标题:(三十四)中文问题

    本文链接:https://www.haomeiwen.com/subject/wxcoxqtx.html