美文网首页
python获取页面代码中文乱码

python获取页面代码中文乱码

作者: markDownMan | 来源:发表于2018-08-12 10:34 被阅读228次

Python模块Requests的中文乱码问题 - ShengLeQi - 博客园


python爬虫 - pyquery爬虫中文乱码 - SegmentFault 思否


1.pyquery

doc = pq('http://www.baidu.com',encoding="utf-8")


2.requests

2.1

url='http://music.baidu.com'

r = requests.get(url)

#二进制获取页面数据

html=r.content

html_doc=str(html,'utf-8')

#html_doc=html.decode("utf-8","ignore")

print(html_doc)


2.2

url='http://music.baidu.com'

r=requests.get(url)

#将request下来的页面数据以utf-8编码

r.encoding='utf-8'

print(r.text)


3.从本地文件打开也报乱码问题,加encoding='utf-8'

with open('dingdian.txt', 'r' ,encoding='utf-8') as f:

with open('dingdian.txt', 'w' ,encoding='utf-8') as f:

均是这种格式

不存在什么decoing=''utf-8''

遇到有些编码不规范的文件,你可能会遇到UnicodeDecodeError,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况,open()函数还接收一个errors参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:

f = open('/Users/michael/gbk.txt','r', encoding='gbk', errors='ignore')

相关文章

网友评论

      本文标题:python获取页面代码中文乱码

      本文链接:https://www.haomeiwen.com/subject/nhvzvftx.html