美文网首页
Python编码问题

Python编码问题

作者: 胃痛的香蕉1 | 来源:发表于2018-08-04 20:17 被阅读0次

    默认编码

    字符串

    python2 文本字符串默认编码是ASCII,中文默认UTF-8
    python3 文本字符串默认编码是Unicode

    解释器

    python2 解释器编码默认是ASCII
    python3 解释器编码默认是UTF-8

    encode\decode

    非Unicode 进行 decode 返回Unicode
    Unicode 进行 encode 返回非Unicode


    写入文件

    "w"

    python3

    • "w"只能写Unicode

    python2

    • "w" 方法可以写入Unicode和非Unicode
    • "w" 方法如果写入Unicode会自动转成解释器的默认编码。

    想使用python2写入中文
    必须是Unicode的中文
    1.修改解释器编码为utf-8,这样就可以处理包含中文的Unicode字符串写入了

    # coding:utf-8
    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")
    a = u"世界"
    with open('utf8.txt','w') as f:
        f.write(a)
    

    注意:使用这种方法请不要使用pycharm,原生python2.7中会有这个方法,但是pycharm把这个方法屏蔽了

    1. 使用codecs模块写入文件,将Unicode字符串按encoding参数指定的编码写入:
    # coding:utf-8
    import codecs
    unicode_str = u"世界"
    with codecs.open("hello.txt", "w", encoding="utf-8") as :
        f.write(unicode_str)
    

    "w" 方法写入非Unicode,英文会直接写入,中文只能在使用上面的方法一才能写入。
    例如已经将Unicode.decode("utf-8"),就写入utf-8。


    "wb"

    python3

    • "wb" 方法只能写入非Unicode

    python2

    • "wb"方法只能写入非Unicode字符串("utf-8"、"GBK"等)

    读取文件

    "r"

    • python3 r 读出来的是Unicode
    • python2 r读出来的是非Unicode

    "rb"

    • python3 rb 读出来的非Unicode
    • python2 rb 读出来的是非Unicode

    查看系统默认编码

    import sys
    # 打印出系统默认编码方式
    print(sys.getdefaultencoding())
    

    修改默认编码

    # 修改系统默认编码
    sys.setdefaultencoding('utf8')
    

    类Unicode字符串转换成Unicode字符串

    将一个类Unicode字符串(长得像Unicode,但是它是个普通字符串),解码为真正的Unicode

    # python2中
    s = "\u4f60\u597d\u4e16\u75c"
    # 这样操作它就变成真正的Unicode
    unicodee_str = s.decode("unicode-escape")
    print(unicodee_str) # u"\u4f60\u597d\u4e16\u75c"
    

    注意:不管python2还是python3 遇到类Unicode码(类似于这种"\u4f60\u597d\u4e16\u75c")它其实是长得像Unicode码的Unicode码;
    先变成非Unicode,之后再decode("unicode-escape"),可以将类Unicode变成Unicode码。

    Json化写入文件

    将字典json化保存成系统指定编码
    如果python2会将unicode字符串编码成ascii保存成文件,这时候就需要两步

    1. 指定编码写入
    2. json.dumps(字典,ensure_ascii=False)
    # coding:utf-8
    class TencentPipeline(object):
        def open_spider(self,spider):
        # 按指定编码保存文件
            self.f = codecs.open("tencent.json", "w",encoding='utf-8')
    
        def process_item(self,item,spider):
            # ensure_ascii=False不以ascii编码保存文件
            json_str = json.dumps(dict(item),ensure_ascii=False) + ',\n'
            self.f.write(json_str)
            return item
    
        def close_spider(self,spider):
            self.f.close()
    

    相关文章

      网友评论

          本文标题:Python编码问题

          本文链接:https://www.haomeiwen.com/subject/wpgpvftx.html