美文网首页
字符编码

字符编码

作者: HappyGhh | 来源:发表于2020-12-29 14:47 被阅读0次

原文链接:https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),

1 字节 8 bit 2^7 范围 -256~255
2 字节 16 bit 2^15 范围 -65536~65535
4 字节 32 bit 2^31 范围 -4294967296~4294967295

由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为 ASCII 编码。ASCII 编码 用一个字节表示一个字符,但是要处理中文至少需要两个字节,所以各个国家都制定了自己的标准,相互之间不可避免就出现了冲突,也就是我们平时遇到的乱码。

为了解决这个问题,出现了 Unicode 字符集,用两个字节表示一个字符,解决了乱码问题,但是,如果你写的文本基本上全部是英文的话,用 Unicode 编码比 ASCII 编码需要多一倍的存储空间,在存储和传输上就十分不划算。所以,出现了 UTF-8 编码,也是我们经常使用的。

UTF-8 编码把一个 Unicode 字符根据不同的数字大小编码成1-6个字节,
常用的英文字母被编码成1个字节,
汉字通常是3个字节,
只有很生僻的字符才会被编码成4-6个字节。
如果你要传输的文本包含大量英文字符,用 UTF-8 编码就能节省空间:

image.png

计算机系统通用的字符编码工作方式:

在计算机内存中,统一使用 Unicode 编码,当需要保存到硬盘或者需要传输的时候,就转换为 UTF-8 编码。

用记事本编辑的时候,从文件读取的 UTF-8 字符被转换为 Unicode 字符到内存里,编辑完成后,保存的时候再把 Unicode 转换为 UTF-8 保存到文件。

相关文章

  • 部分知识点

    chr(编码值) - 将字符编码转换成字符 ord(字符) - 获取字符对应的编码值 可以将字符编码放到字符串中便...

  • 字符编码知识梳理

    [toc] 字符编码: 字符编码(英语:Character encoding)、字集码是把字符集中的字符编码为指定...

  • Python正式课第十三天

    一、文件操作与字符编码 1. 字符编码 编码 将字符转换为对应的二进制序列的过程叫做字符编码(字符->二进制01)...

  • 字符编码

    一. 什么是字符编码? 字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为...

  • python 高级方法

    Python的字符串类型 字符编码方法 查看Python中的字符串编码名称,查看系统的编码 源文件字符集编码声明:...

  • Java内存中的文本编码

    1、编码简介 1.1 概念简析:字符、字符集、编码字符集、Code Point、Code Unit和字符编码格式 ...

  • python 字符 编码 简述

    字符编码问题很简单,当你可以区分以下几种概念之后: 字节编码与字符编码 字节串与字符串 文件编码、IDE编码、其他...

  • 13.Python之字符编码

    Python之字符编码 字符编码字符编码记录的是二进制与文字的对应关系。 常见的字符编码ASCII码:包含英文字母...

  • 笔记-encode与decode

    字节串-->decode('原来的字符编码')-->Unicode字符串-->encode('新的字符编码')--...

  • Python基础(二)-字符串和编码

    字符串和编码 字符编码 字符编码也称字集码,是把字符集中的字符编码为指定集合中某一对象,以便文本在计算机中存储和通...

网友评论

      本文标题:字符编码

      本文链接:https://www.haomeiwen.com/subject/opzznktx.html