python3的爬虫笔记1——静态网页获取

作者: X_xxieRiemann | 来源:发表于2017-04-23 12:57 被阅读237次

静态网页源码的获取：
以获取百度首页的html源代码为例，（ps：后来发现百度首页并不是静态的，好在不影响功能说明）。

（1）方法一：使用requests

import requests
#查询的url地址
url = 'http://www.baidu.com'
#使用get方法获得url的内容
response = requests.get(url)
#由于response的格式为requests.models.Response无法直接print，用text转成str格式
#若用于下载图片、视频、音频等多媒体格式,应用response.content转成二进制的bytes格式
html = response.text
#打印网页
print(html)

我们来看下输出的结果，是典型的html的格式。但是其中有一些乱码，这是怎么回事呢。

我们看下requests的官方文档。

原来requests会对文本编码的格式进行推测，按我们打印到的html页面可以看到，charset=utf-8，那么应该就是utf-8编码了吧。我们来看一下：
在获取到reponse后，我们先不对他进行转码，先看一下Requests是怎么对他自动编码的。

import requests
url = 'http://www.baidu.com'
response = requests.get(url)
print(response.encoding)
ISO-8859-1

显示结果为：ISO-8859-1。和想的不太一样呀，原来requests把我们得到的reponse编码成ISO-8859-1了，我们采用text的方法，实际是用ISO-8859-1进行解码，但从网页源代码我们知道utf-8才是它正确的编码，因此程序需要小小的修改一下。

import requests
#查询的url地址
url = 'http://www.baidu.com'
#使用get方法获得url的内容
response = requests.get(url)
#修改为utf-8编码格式
response.encoding = 'utf-8'
#由于response的格式为requests.models.Response无法直接print，用text转成str格式
#若用于下载图片、视频、音频等多媒体格式,应用response.content转成二进制的bytes格式
html = response.text
#打印网页
print(html)

这回看一下输出结果，这回看上去好多了吧！

（2）方法二：用urllib模块获取：

import urllib.request
#查询的url地址
url = 'http://www.baidu.com'
#使用urllib.request模块的urlopen方法获得url的内容，并用read方法读取，结果为二进制格式
response = urllib.request.urlopen(url).read()
#将二进制格式用utf-8的方法解码为str(unicode)
html = response.decode('utf-8')
#打印网页
print(html)

（3）小结：

`
大多数情况使用requests的方法会比urllib方便得多，因为requests整合了urllib中各种函数的功能，还有自带了cookie的功能，代码也相对整洁漂亮。
网络上关于python的爬虫教程，大多还是采用python2.7，使用的是urllib和urllib2的模块。而在python3中，用urllib整合了前两个模块。比如urllib2.urlopen可以用urllib.request.urlopen代替，比如urllib2.Request可以用urllib.request. Request代替，比如urllib.urlencode可以用urllib.parse.urlencode代替。在学习python3的过程中，也是能作为参考的。
在后面的笔记中，我将对requests和urllib的方法进行对比。

python3的爬虫笔记1——静态网页获取

（1）方法一：使用requests

（2）方法二：用urllib模块获取：

（3）小结：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python

爬虫专题

python爬虫日记本

Python爬虫

大数据爬虫Python AI Sql

Python基础

虫虫

python3的爬虫笔记1——静态网页获取

（1）方法一：使用requests

（2）方法二：用urllib模块获取：

（3）小结：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python

爬虫专题

python爬虫日记本

Python爬虫

大数据 爬虫Python AI Sql

Python基础

虫虫

大数据爬虫Python AI Sql