python使用requests爬取网页时，中文乱码

作者: 小鬼客 | 来源:发表于2019-03-02 17:25 被阅读0次

使用requests 在爬去一个网站数据时，对于中文出现乱码的情况，解决的方式：
首先：
出现乱码的原因，就是IDE的编码方式和网页的编码方式不一致
其次：
如何确定网站的编码方式呢？

import chardet
print(chardet.detect(html.content))

结果：
{'encoding': 'GB2312', 'language': 'Chinese', 'confidence': 0.99}
编码格式为： GB2312

最后：
解决方式：

1.
html.content.decode('gbk')
# 将内容解码用gbk

2.requests爬虫时，建议使用此种方式，如果遇到乱码问题🐷
html.encoding = 'gbk'
print(html.text)
# 指定html.text的编码方式

网友评论

本文标题：python使用requests爬取网页时，中文乱码

本文链接：https://www.haomeiwen.com/subject/eocyuqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！