解决使用request库爬取内容出现乱码的问题

作者: 林禹成 | 来源:发表于2017-06-20 11:51 被阅读0次

刚开始爬虫经常会被编码问题坑，今天看了python的requests库的官方文档和几种常见编码的关系,在这里做个简单的小结。

这里用百度做例子说明。

import requests

r = requests.get('http://www.baidu.com')
print(r.encoding)
print(r.text)

执行代码后输出如下：

我们可以看到返回response编码类型为 ISO-8859-1，文本输出中中文字符为乱码。
那么最简单的解决方案就是增加utf-8编码转化，如下：

import requests

r = requests.get('http://www.baidu.com')
r.encoding = 'utf-8'
print(r.encoding)
print(r.text)

再次执行代码，

我们发现问题已经顺利的解决了。

网友评论

本文标题：解决使用request库爬取内容出现乱码的问题

本文链接：https://www.haomeiwen.com/subject/gquoqxtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！