美文网首页Python学习
python中把ISO-8859-1编码转化为UTF-8

python中把ISO-8859-1编码转化为UTF-8

作者: _Haimei | 来源:发表于2018-05-30 16:38 被阅读320次

当我们爬取一些页面的中文信息时,会出现如下情况:


11.png

爬取的中文编码格式不是UTF-8,无法正常显示,查看编码格式:


12.png
编码格式为ISO-8859-1(长见识啦~)
我们先定义一个这种编码的字符串:
14.png

先编码


15.png
后解码
16.png
完整流程
13.png
爬取内容变为中文
20.png

encode(编码):按照某种规则将“文本”转换为“字节流”,unicode转化为str

decode(解码):将“字节流”按照某种规则转换成“文本”,str转化为unicode

s.decode(' '):运行会出错。因为python 3中的str类型对象有点像Python 2中的unicode, 而decode是将str转为unicode编码,所以str仅有一个encode方法,调用这个方法后将产生一个编码后的byte类型的字符。
AttributeError: 'str' object has no attribute 'decode'
AttributeError: 'bytes' object has no attribute 'encode'

相关文章

网友评论

    本文标题:python中把ISO-8859-1编码转化为UTF-8

    本文链接:https://www.haomeiwen.com/subject/jhqxsftx.html