美文网首页
str、unicode、bytes和编码

str、unicode、bytes和编码

作者: RandyLou | 来源:发表于2020-09-25 07:08 被阅读0次

    在Java界也算是老司机了,基本理解Unicode、UTF8、GBK等等的概念和关系。在Python 2.7里遇到的编码问题还是让老夫虎躯一震。在Java里str存的始终都是Unicode,所以理论上只要getBytes里指定的编码能支持给到字符,就能转成对应的编码。做为一个Python新手,一开始我也是这么理解的。

    于是,当str.decode('utf-8')报错时让我产生了很多疑惑。直到我发觉不应该把对等到Java的String,而是对应到特定编码的字节数组。strunicode的转换关系才算理解。

    不过马上新的困惑就袭来了,到现在依然没有答案。如果str理解为编码好的字节的话,那bytes是什么,和str什么区别?

    官方文档说,bytes只是str的别名,在命令行测试了下,

    >>> bytes == str
    True
    

    看起来确实是一个东西,问题是如果只是别名,那为什么要提供两个类型呢? 有了解这个问题的大神欢迎留言或者站内信帮忙解释一下,以解心中疑惑。

    Python3拨乱反正了,str对应的是unicode,和Java中类似,bytes是编码后的字节。解决让我混淆的bytes和str的问题。

    1. 编码,又是编码

    1.1 在控制台定义变量
    >>> v = '中'
    >>> v
    '\xd6\xd0'
    
    1.2 用decode('utf-8')报错
    >>> v.decode('utf-8')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      File "D:\programs\Python27\lib\encodings\utf_8.py", line 16, in decode
        return codecs.utf_8_decode(input, errors, True)
    UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
    

    产生的原因是Python 2.7中str本身存储的是字符串对应的编码后的字节数组,采用的编码和系统的默认编码有关,以下命令我们拿到默认编码:

    >>> sys.stdout.encoding
    'cp936'
    

    cp936也就是我们常见的GBK,str里存储的实际是'中'字在GBK编码下,对应的字节数组,如果我们这个时候尝试'utf-8'来转换成unicode显然是不对的。

    1.3 问题的根源

    正确的做法是先通过GBK解码,转成unicode,然后通过unicode字符再次编码为'utf-8',代码如下:

    >>> r = v.decode('gbk').encode('utf-8')
    >>> r
    '\xe4\xb8\xad'
    >>> print(r)
    涓
    

    可是输出问什么不是'中',而是乱码呢,实际是因为控制台本身是自带编码的,encode后的str里边存储的是字节数组,输出时会按控制台编码sys.stdout.encoding输出,然后导致的乱码。

    如果此时我们使用一个'utf-8'编码的Python文件,再次输出r对应的值,可以看到他实际上就是'中'字

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    
    v = '\xe4\xb8\xad'
    print(v)
    
    image.png

    相关文章

      网友评论

          本文标题:str、unicode、bytes和编码

          本文链接:https://www.haomeiwen.com/subject/vfuxuktx.html