美文网首页python_爬虫
Python requests请求页面返回乱码问题

Python requests请求页面返回乱码问题

作者: Tony_Pm | 来源:发表于2022-03-14 17:26 被阅读0次

序言

有时候在通过Python爬取网页数据的时候,比如抖音、快手等短视频数据;网页会返回乱码;这种乱码数据,不管是gb2312、utf-8、gbk、亦或者使用gbk的超集gb18030等编码都毫无用处。看下图。
image.png
原因出在一个参数上 'accept-encoding': 'gzip, deflate, br'

gzip是一种数据格式;默认且目前仅使用deflate算法压缩data部分,这种方法常用于压缩传输。

image.png

普通浏览器在访问网页时,之所以要添加 'accept-encoding': 'gzip, deflate, br' ;是因为,浏览器对于从服务器中返回的对应的gzip压缩的网页,会自动解压缩,所以,在requests的时候,添加对应的请求头,来表明自己接收压缩后的数据。

而在上面的代码中,如果也添加此头的信息,结果就是,返回的是压缩后的数据,没有解码,直接将压缩后的数据当做普通的html文本来处理,所以显示出来的内容,就是乱码了。(看到这里是不是有种恍然大悟😄)

如果还不理解再直白点:就是服务器数据返回给客户端时候已经被gzip压缩了,而你的程序里面没有自动解压而已。

解决方案


1、注释掉 ;

2、可以弄个解压算法把乱码的数据进行解压,即可得到正常的HTML返回结果。


在这个浮躁的时代;竟然还有人能坚持篇篇原创;
如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。
支持原创。感谢!

相关文章

  • Python requests请求页面返回乱码问题

    序言 有时候在通过Python爬取网页数据的时候,比如抖音、快手等短视频数据;网页会返回乱码;这种乱码数据,不管是...

  • request 请求乱码 Python

    使用requests请求网页时,返回的页面信息有时是乱码解决方法和思路过程; 代码; 不加这个参数也可以,如下:

  • 1.web爬虫,requests请求

    requests请求,就是用python的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两...

  • python获取页面代码中文乱码

    Python模块Requests的中文乱码问题 - ShengLeQi - 博客园 python爬虫 - pyqu...

  • 爬虫

    1、requests Get方法:请求制定页面的信息,并返回实体 requests.get(),可以发送一个get...

  • python获取公网ip

    思路:请求一个特定网站,网站返回内容包含公网ip。 使用python的requests库请求http://txt....

  • Python 中文乱码问题

    问题 requests 返回的数据中,中文出现乱码 报错, encode 也无法解码显示正确的字符。 解决

  • python request 请求https 挂代理报错

    python request 请求https 挂代理报错 问题1:requests.exceptions.SSLE...

  • 2018-08-10

    Python中requests请求报错requests.exceptions.ChunkedEncodingErr...

  • 利用python爬取城市公交站点

    利用python爬取城市公交站点 页面分析 爬虫 我们利用requests请求,利用BeautifulSoup来解...

网友评论

    本文标题:Python requests请求页面返回乱码问题

    本文链接:https://www.haomeiwen.com/subject/tmhsdrtx.html