美文网首页
python中的编码问题

python中的编码问题

作者: 来个芒果 | 来源:发表于2018-06-28 15:04 被阅读0次

    个人速记

    1. python3 和python2 的区别

    python3 中有两种表示字符序列的类型:bytes 和 str

    • bytes 字节流,即原始的8个二进制位,又名‘二进制字节流’
    • str:unicode字符

    Python2 中表示字符序列的类型为:str 和 unicode

    • str:实为字节流,对应python3中的bytes
    • unicode:unicode字符

    注意:python2和3中的unicode都没有和任何特定的二进制编码形式相关联,要想把unicode字符转换为二进制数据,必须要用encode方法,把二进制数据转换为unicode字符,必须要用decode方法。

    解码(需要有二进制编码):计算机是如何知道00110011对应‘a’呢?这就需要进行解码
    编码(得到二进制编码):将a编码为00110011

    2. unicode 、utf-8 、二进制三者之间的区别

    • unicode

    unicode只是一个符号集,它只规定了符号的二进制代码,没有规定这个二进制代码如何存储。
    unicode编码系统是为表达任意语言而设计的,为了防止存储上的冗余(比如,对应ascii码的部分),其采用了变长编码,但变长编码给解码带来了困难,无法判断是几个字节表示一个字符

    • utf-8
      是针对unicode变长编码设计的一种前缀码,根据前缀可判断unicode中的几个字节表示一个字符。

      ‘严’的 Unicode 是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5。

    一句话:
    unicode只是一个符号集,只规定了符号的二进制代码;
    而utf-8是针对unicode变长编码设计的一种前缀码,可以理解为是一种unicode的存储机制,是unicode的一种实现方式之一。

    3. python中的编码和解码
    以python2为例
    解码:str.decode('utf-8') ,将字节流按照给定的解码方式utf8解码,并转换为unicode。
    编码:u.encode('utf-8'),将unicode字符按照给定的编码方式转化为字节流str。

    参考(区分先后):

    1. https://www.cnblogs.com/shine-lee/p/4504559.html
    2. http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

    相关文章

      网友评论

          本文标题:python中的编码问题

          本文链接:https://www.haomeiwen.com/subject/iivgyftx.html