使用requests爬取数据中文编码问题

使用requests爬取数据中文编码问题

作者: Manfestain | 来源:发表于2018-06-14 10:45 被阅读0次

使用requests爬取数据中文编码问题
Python爬虫实战-抓取拉钩招聘信息
python爬虫学习（二）
GB2312/GBK/Big5
bilibili
nodejs使用superagent爬取网站内容中文乱码的解决方
python中把ISO-8859-1编码转化为UTF-8
学会运用爬虫框架 Scrapy (一)
Scrapy豆瓣项目实战
阿里测试工程师推荐——Python下利用Selenium获取动态

最近参加一个比赛，由于数据集较少，需要自己手动爬取一些数据。首先发现原网页是局部刷新页面的，通过分析，拿到了请求json字符串的url，将url直接复制在浏览器中，可以拿到json字符串，接下来码代码爬取数据，主要代码如下：

response = requests.get(url)
        if response.status_code == 200:
            content = response.text

发现拿到的数据中中文全部变成了\u***之类的数据，首先想到的可能是编码问题，然后去网上搜，试了好多种办法，还是无法解决。
手动将输出的字符赋值为字符串，然后输出，发现竟然是中文

a = "\u5e73\u624b"
print(a)
print(type(a))

输出：

于是就怀疑可能是数据本身有问题，再次查看原网页数据：

发现原始数据中中文确实是编码，当变为json数据时问题就解决了：

于是修改源代码：

response = requests.get(url)
        if response.status_code == 200:
            content = response.json()

相关文章

使用requests爬取数据中文编码问题
最近参加一个比赛，由于数据集较少，需要自己手动爬取一些数据。首先发现原网页是局部刷新页面的，通过分析，拿到了请求j...
Python爬虫实战-抓取拉钩招聘信息
爬取过程： 1、获取数据：Requests 2、解析数据：使用pandas的 DataFrame.from_dic...
python爬虫学习（二）
网络爬虫引发的问题 1.网络爬虫尺寸（1）爬取网页小规模、数据量小、爬取速度不敏感------Requests...
GB2312/GBK/Big5
python中爬取网页是总是遇到中文编码问题总结如下; 1.如何判断一段文字(网页)的编码格式2.中文编码的种类和...
bilibili
数据爬取使用python 中的requests对bilibili api网站进行请求，对10100000到254...
nodejs使用superagent爬取网站内容中文乱码的解决方
使用superagent爬取网站内容，当网页编码不是utf-8编码时，中文就会返回乱码，原因是superagent...
python中把ISO-8859-1编码转化为UTF-8
当我们爬取一些页面的中文信息时，会出现如下情况：爬取的中文编码格式不是UTF-8,无法正常显示，查看编码格式： ...
学会运用爬虫框架 Scrapy (一)
对于规模小、爬取数据量小、对爬取速度不敏感的爬虫程序，使用 Requests 能轻松搞定。这些爬虫程序主要功能是...
Scrapy豆瓣项目实战
在没有scrapy时我们经常使用urllib,requests进行爬取，会封装http头部信息，代理，去重，数据存...
阿里测试工程师推荐——Python下利用Selenium获取动态
利用python爬取网站数据非常便捷，效率非常高，但是常用的一般都是使用BeautifSoup、requests搭...

网友评论

Error & Warning

本文标题：使用requests爬取数据中文编码问题

本文链接：https://www.haomeiwen.com/subject/snbeeftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Error & Warning

热点阅读

Error & Warning

关于我们|服务条款|联系我们|使用requests爬取数据中文编码问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！