美文网首页
Python 2.x 中 Unicode 的使用

Python 2.x 中 Unicode 的使用

作者: 舌尖上的大胖 | 来源:发表于2017-08-04 06:53 被阅读0次

    由于 Python 在 1989 年被创造出来,Python 2 发布于 2000 年,这时 Unicode 还没有被广泛应用,所以 Python 2 中对于宽字符集的先天支持不够完善,使用过程中会有些容易误解的地方。本文以中文处理为例,说下对于宽字符集的处理。

    先说结论:

    • 所有 Python 源文件的文件头,加上 # -*- coding: UTF-8 -*-# coding: u8
    • 所有源文件保存为 UTF-8 编码
    • 代码中所有带有中文的字面值字符串,都使用 Unicode 字符串,如:s = u'测试中文'
    • 从文本文件中读取的内容,如果需要对其中的字符做编辑处理,需要在打开文件时指定编码,或者当做字节流加载后,转为 Unicode 字符串处理。
    • 将字符串内容保存到文件时,先指定要使用的编码,将编码后得到的数据写入文件

    细说

    一、理想状态

    近几年相对新一些的开发语言,已经对 Unicode 有了完善支持,个人理解整体的处理思路是这样的:
      1、通过对源文件字符编码格式处理能力的增强,编译器可以自动处理源文件的编码格式,或者默认约定为 UTF-8,来减少这方面带来的干扰;
      2、内存中的字符串,不存在所谓的编码问题,只是各个字符序号的一个序列
      3、所谓的 UTF-xx 编码这样的说法,只是用于存储和传输过程的需要。UTF 即 Unicode Transformation Format,定义也说明了其用途。

    二、历史包袱

    对于历史比较悠久的开发语言或者开发工具,由于历史原因,当年还没有 Unicode,所以语言缺乏对于 Unicode 原生的支持,一般会通过类库来做扩展进行支持。个人接触过的开发工具有:Delphi 7 及之前版本(之后的我没用过)中的 Object Pascal、Python 2。(插句题外话,突然觉得 C 当年是多么机灵,竟然没有引入字符串类型,没给自己找麻烦,一切处理交给类库,随时升级,啧啧啧……)
      以 Python 2 为例,当初的字符串是个字节流,其中每个字节表示一个 ASCII 码。而且实际上,即便一些字节超出 ASCII 范围,也一样能放到字符串中。所以,遇到宽字符集中的字符,一样可以用字符串表示,但是计算字符串长度、获取特定位置字符时,就会出现问题:

    # Python REPL 环境中的测试
    >>> s = '测试中文'
    >>> print s, type(s), len(s)
    测试中文 <type 'str'> 12
    

    这时就需要一种支持 Unicode 的字符串类型作为弥补:

    # Python REPL 环境中的测试
    >>> s = u'测试中文'
    >>> print s, type(s), len(s)
    测试中文 <type 'unicode'> 4
    
    三、引起混乱的原因

    个人认为,在开发环境对 Unicode 支持不够完善的情况下,以下几方面都容易引入问题:

    1. 源文件编码格式(建议统一使用 UTF-8)
    2. 编译器对于源文件格式的识别和处理(这个作为代码编写者无法干预,只能按照规则执行)
    3. 编译器对于源码中宽字符字面值的理解
    4. 外部数据的格式,如:外部文件、从网络获取的数据

    这几种情况中:
      1、2 可以通过规范约定,能扫清很多干扰。
      3 比较容易处理,按照语言规则,让编译器按照 Unicode 去处理字面值中的宽字符(如中文)的处理,类似这样

    s = u'测试中文'
    # 这样编写,字符串 s 就是按照 Unicode 处理其中内容的
    

    4 是真正要注意的情况。这部分内容不受编程时代码的约束,完全决定于外部环境。对于对 Unicode 支持良好的开发环境,获取数据时,会保存到一个二进制字节流中,当转换为字符串表示时,需要指定字符编码,然后才能做转换,每一步都很清晰,而且拿到的字符串,一定是 Unicode。而在 Python 2 中,没有这样的强制要求,所以就需要自己处理:

    # -*- coding: UTF-8 -*-
    # 打开文件并读取内容
    fp = open('file.txt', 'r')
    data = fp.read()
    print type(data)
    # 根据数据实际的编码格式,转换为 Unicode 字符串,再进行使用
    s = data.decode('gbk')
    print type(s)
    print s
    
    四、规则约定总结

    本文开头,作为结论提出了一些约定的规范做法,这里再做个总结。

    1. 所有 Python 源文件的文件头,加上 # -*- coding: UTF-8 -*-# coding: u8
    2. 所有源文件保存为 UTF-8 编码
    3. 代码中所有带有中文的字面值字符串,都使用 Unicode 字符串,如:
    # -*- coding: UTF-8 -*-
    myStr = u'测试中文'
    print myStr
    print type(myStr)
    print len(myStr)
    
    1. 从文本文件中读取的内容,如果需要对其中的字符做编辑处理,需要在打开文件时指定编码,或者当做字节流加载后,转为 Unicode 字符串处理。
    # -*- coding: UTF-8 -*-
    # 打开文件并读取内容
    fp = open('file.txt', 'r')
    data = fp.read()
    print type(data)
    # 根据数据实际的编码格式,转换为 Unicode 字符串,再进行使用
    s = data.decode('gbk')
    print type(s)
    print s
    
    1. 将字符串内容保存到文件时,先指定要使用的编码,将编码后得到的数据写入文件
    # -*- coding: UTF-8 -*-
    s = u'我的中文测试'         # 带有中文的 Unicode 字符串
    data = s.encode('UTF-8')  # 使用指定编码,转成数据
    # 将数据写入文件
    fp = open('file.txt', 'w')
    fp.write(data)
    fp.close()
    
    五、案例

    Requests 是 Python 中一个强大的的网络库,在写一些爬虫工具时会用到。在网络请求完成后,会拿到一个 response 对象。一般情况,通过 response.text 返回的 Unicode 字符串就可以满足要求。
      最近写的一个爬虫工具,就在编码部分出了问题。网站一部分页面是 UTF-8 编码,另一部分是 GBK 编码。开始的时候并不知道,统一使用 response.text 来做处理,但是发现一些冷僻字出现了乱码。

    问题原因
    response 同时提供了 content 属性和 text 属性。其中:

    • response.content 属性类型为 str,保存着原始内容的字节流
    • response.text 属性类型为 unicode,是从 response.content 内容解码得到的
      网站的 UTF-8 部分页面,直接用 response.text 获取没有问题。但是对于 GBK 编码的那部分页面,恰巧冷僻字比较多,Requests 库在解码得到 response.text 的时候,内部使用了不完善的中文字符集,个人猜测可能是 GB2312 之类的,导致一些字符不能识别,需要用 GBK 解码解决。

    解决方法

    # 对于确定返回内容为 GBK 编码的情况,通过 GBK 解码,得到原始的 Unicode
    response.content.decode('GBK')
    

    参考链接:
    Python中的str与unicode处理方法
    Python编码格式说明及转码函数encode和decode的使用

    (完)

    相关文章

      网友评论

          本文标题:Python 2.x 中 Unicode 的使用

          本文链接:https://www.haomeiwen.com/subject/cnymhxtx.html