python获取页面代码中文乱码

作者: markDownMan | 来源:发表于2018-08-12 10:34 被阅读228次

python获取页面代码中文乱码
从零基础开始教你爬取全网妹子图！难道你就不想在室友面前装逼？
解决requests获取源代码时中文乱码问题
Python数据可视化matplotlib库
Servlet的一些问题
javascript 之《 url传参》
令Python matplotlib支持中文
js获取url中的中文参数出现乱码
html页面中文显示乱码问题
vscode中python print输出中文乱码

Python模块Requests的中文乱码问题 - ShengLeQi - 博客园

python爬虫 - pyquery爬虫中文乱码 - SegmentFault 思否

1.pyquery

doc = pq('http://www.baidu.com',encoding="utf-8")

2.requests

2.1

url='http://music.baidu.com'

r = requests.get(url)

#二进制获取页面数据

html=r.content

html_doc=str(html,'utf-8')

#html_doc=html.decode("utf-8","ignore")

print(html_doc)

2.2

url='http://music.baidu.com'

r=requests.get(url)

#将request下来的页面数据以utf-8编码

r.encoding='utf-8'

print(r.text)

3.从本地文件打开也报乱码问题，加encoding='utf-8'

with open('dingdian.txt', 'r' ,encoding='utf-8') as f:

with open('dingdian.txt', 'w' ,encoding='utf-8') as f:

均是这种格式

不存在什么decoing=''utf-8''

遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略：

f = open('/Users/michael/gbk.txt','r', encoding='gbk', errors='ignore')

网友评论

本文标题：python获取页面代码中文乱码

本文链接：https://www.haomeiwen.com/subject/nhvzvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python获取页面代码中文乱码

相关文章