美文网首页
解决使用request库爬取内容出现乱码的问题

解决使用request库爬取内容出现乱码的问题

作者: 林禹成 | 来源:发表于2017-06-20 11:51 被阅读0次

    刚开始爬虫经常会被编码问题坑,今天看了python的requests库的官方文档几种常见编码的关系,在这里做个简单的小结。

    这里用百度做例子说明。

    import requests
    
    r = requests.get('http://www.baidu.com')
    print(r.encoding)
    print(r.text)
    

    执行代码后输出如下:

    我们可以看到返回response编码类型为 ISO-8859-1,文本输出中中文字符为乱码。
    那么最简单的解决方案就是增加utf-8编码转化,如下:

    import requests
    
    r = requests.get('http://www.baidu.com')
    r.encoding = 'utf-8'
    print(r.encoding)
    print(r.text)
    

    再次执行代码,

    我们发现问题已经顺利的解决了。

    相关文章

      网友评论

          本文标题:解决使用request库爬取内容出现乱码的问题

          本文链接:https://www.haomeiwen.com/subject/gquoqxtx.html