美文网首页Python学习
python中把ISO-8859-1编码转化为UTF-8

python中把ISO-8859-1编码转化为UTF-8

作者: _Haimei | 来源:发表于2018-05-30 16:38 被阅读320次

    当我们爬取一些页面的中文信息时,会出现如下情况:


    11.png

    爬取的中文编码格式不是UTF-8,无法正常显示,查看编码格式:


    12.png
    编码格式为ISO-8859-1(长见识啦~)
    我们先定义一个这种编码的字符串:
    14.png

    先编码


    15.png
    后解码
    16.png
    完整流程
    13.png
    爬取内容变为中文
    20.png

    encode(编码):按照某种规则将“文本”转换为“字节流”,unicode转化为str

    decode(解码):将“字节流”按照某种规则转换成“文本”,str转化为unicode

    s.decode(' '):运行会出错。因为python 3中的str类型对象有点像Python 2中的unicode, 而decode是将str转为unicode编码,所以str仅有一个encode方法,调用这个方法后将产生一个编码后的byte类型的字符。
    AttributeError: 'str' object has no attribute 'decode'
    AttributeError: 'bytes' object has no attribute 'encode'

    相关文章

      网友评论

        本文标题:python中把ISO-8859-1编码转化为UTF-8

        本文链接:https://www.haomeiwen.com/subject/jhqxsftx.html