美文网首页
字符集&字符编码

字符集&字符编码

作者: 饥人谷_Oneleven | 来源:发表于2017-03-06 14:36 被阅读10次

    字符集和字符编码

    计算机中存储的信息都是用二进制数表示的(即0和1,逢二进一,这和计算机逻辑电路中的接通和断开两个物理状态对应),而我们在屏幕上看到的英文汉字是二进制数转换的结果。

    • 字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
    • 字符编码(Character Encoding):在符号集合与数字系统之间建立对应关系,将符号转换为计算机可以接受的数字系统的数。
    • 常用的字符集:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等
    字符集 字符编码
    ASCII(american standard code for information interchange)美国信息交换标准代码 主要显示现代英语 7位(bits)表示一个字符,共2^7,128个字符
    EASCII 追加扩展了一些欧洲常用字符 8位(bits)表示一个字符,共2^8,256个字符
    GB2312 国标,用于汉字 小于127的字符意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。 在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
    GB18030 对gb2312追加扩展,支持国内少数名族文字 采用多字节编码,与utf-8相同,每个字可以由1个、2个或4个字节组成
    GBK 微软利用GB 2312未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码 字符有一字节和双字节编码
    BIG5 繁体字
    Unicode 万国码 uft-32(每个字符都使用4个字节,效率低) / utf-16 / utf-8

    相关文章

      网友评论

          本文标题:字符集&字符编码

          本文链接:https://www.haomeiwen.com/subject/lrcugttx.html