Python抓取网页内容乱码

作者: FangHao | 来源:发表于2017-02-21 19:58 被阅读0次

Python抓取网页内容乱码
Python实用练手小案例
对于Python3爬虫抓取网页中文出现输出乱码
【Python】抓取网页信息
python爬虫(四)_urllib2库的基本使用
用Mac os自带Automator抓取网页自动存储txt文件
requests和BeautifulSoup中文编码转换心得
Python2 `requests`库抓取网页出现乱码
通过python抓取网页内容实战
Python抓取One网页上的内容

在抓取Runoob网站的时候发现用python2的urllib读取的数据会存在乱码的情况，但是别的网页没有问题，在审查html的<head>之后发现其编码的确是UTF-8无误，所以怀疑可能是由于网络发包走的是gzip，需要经过解压之类的处理，解决代码如下

#python3
import requests
r=requests.get("http://www.runoob.com/mongodb/mongodb-tutorial.html")
print(r.encoding)
print(r.text)

#python2
import gzip
import StringIO
import urllib2

ur1='http://www.runoob.com/mongodb/mongodb-tutorial.html'
reponse=urllib2.urlopen(ur1)
r=reponse.read()
data = StringIO.StringIO(r)
gzipper = gzip.GzipFile(fileobj=data)
html = gzipper.read()
print html

Python抓取网页内容乱码
在抓取Runoob网站的时候发现用python2的urllib读取的数据会存在乱码的情况，但是别的网页没有问题，在...
Python实用练手小案例
抓取网页信息，并生成txt文件内容！Python抓取网页技能——Python抓取网页就是我们常看见的网络爬虫，我们...
对于Python3爬虫抓取网页中文出现输出乱码
对于Python3爬虫抓取网页中文出现输出乱码 import urllib.request response = ...
【Python】抓取网页信息
最近开始利用python实操抓取网页链接内容，记录学习过程，熟悉python操作。版本：Python 3.6.0...
python爬虫(四)_urllib2库的基本使用
本篇我们将开始学习如何进行网页抓取，更多内容请参考:python学习指南 urllib2库的基本使用所谓网页抓取...
用Mac os自带Automator抓取网页自动存储txt文件
最近都在自学python，看到用python可以抓取网页内容，于是想到了mac os 自带的Automator可视...
requests和BeautifulSoup中文编码转换心得
最近在自学用python进行网页数据抓取，结果被中文乱码的问题折腾了好久。网上google了各种解决方案都无法解决...
Python2 `requests`库抓取网页出现乱码
练习抓取网页时遇到的，如果是简书等这些标准网站，正常抓取是没问题的。但是很多网页竟然怎么抓取都是所有中文都乱码。弄...
通过python抓取网页内容实战
使用urllib3做网络部分beautifulsoup4来解析网页内容安装几个python包： urllib3的...
Python抓取One网页上的内容
Title: Python抓取One网页上的内容Date: 2016-05-06 16:46Modified: 2...