爬取豆瓣250遇到的print输出字符GBK编码问题

爬取豆瓣250遇到的print输出字符GBK编码问题

作者: hello2sys | 来源:发表于2017-09-23 20:05 被阅读0次

爬取豆瓣250遇到的print输出字符GBK编码问题
Python学习第四天
Python学习
node.js一个爬虫实例
用23行代码爬取豆瓣音乐top250
5.MySQL字符集和权限安全
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2
用Xpath爬取豆瓣音乐top250遇到的问题
scrapy爬取豆瓣电影
Python爬取豆瓣电影TOP250

【问题】

用Python抓取网页html

出现如下错误：

exception raised:'gbk' codec can't encode character u'\xa0' in position 73: illegal multibyte sequence

【问题原因】

对于此Unicode字符(html)，需要print出来的话，由于本地系统是Windows中的cmd，默认codepage是CP936，即GBK的编码，所以python解释器需要先将上述的Unicode字符html编码为GBK，然后再在cmd中显示出来。

【解决办法】

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

print html.encode(“GBK“,‘ignore’);

方案2：

或者，将其转换为GBK编码的超集GB18030（即，GBK是GB18030的子集）：

print html.encode(“GB18030“);

对应的得到的字符是GB18030的编码。

新问题出现：

改了代码之后，虽然没有报之前的那个错误，但是打印出来文字，英文文字没有出现乱码，但是中文出现乱码的情况

添加以下代码即可解决问题：

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

相关文章

爬取豆瓣250遇到的print输出字符GBK编码问题
【问题】用Python抓取网页html 出现如下错误： exception raised:'gbk' codec...
Python学习第四天
爬取豆瓣top250电影输出结果：爬取猫眼top100 输出结果：
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
node.js一个爬虫实例
爬取豆瓣top250 测试
用23行代码爬取豆瓣音乐top250
网上有各种爬取豆瓣电影top250的教程，虽然豆瓣音乐top250和豆瓣电影top250的爬取十分类似，但是我大致...
5.MySQL字符集和权限安全
字符集--应用显示乱码 1、使用gbk编码，gbk连接，数据插入gbk查询都正常输出，utf8查询正常输出。2、使...
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2
爬取豆瓣TOP250图书榜的出版社分布(一)-urllib2 0. 需求现在准备爬取豆瓣上的图书TOP250然后...
用Xpath爬取豆瓣音乐top250遇到的问题
初学python爬虫，遇到诸多疑难问题。今天这个特别大。目的是简单的使用Xpath爬取豆瓣音乐top250，并存储...
scrapy爬取豆瓣电影
scrapy爬取豆瓣电影，存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。本节要实...
Python爬取豆瓣电影TOP250
爬取目标爬取豆瓣电影TOP250信息并简单分析爬取网址为https://movie.douban.com/to...

网友评论

程序员

本文标题：爬取豆瓣250遇到的print输出字符GBK编码问题

本文链接：https://www.haomeiwen.com/subject/kkfhextx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

程序员

关于我们|服务条款|联系我们|爬取豆瓣250遇到的print输出字符GBK编码问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！