urllib2库的使用

作者: carpe_diem_c | 来源:发表于2017-01-29 15:32 被阅读19次

常用的Python爬虫库
urllib2库的使用
Python3中urllib使用
Python 使用 Gitlab api
python2.7x windows版本爬虫小白入门
python爬虫经典案例，看完这一篇就够了
tenliu的爬虫-抓包分析
tenliu的爬虫-python的urllib库
tenliu的爬虫-python库urllib、urllib2、
tenliu的爬虫-urllib2学习

所谓的网页抓取，就是吧url地址中指定的网络资源从网络流中读取出来，保存在本地。
其中，urlbil2库就可以实现。
urlb2是py2自带的模块，不需下载，导入即可使用。
（urllib2在py3中被改为了urllib.request）

代码1：

#coding=utf-8   
import urllib2  #引入库  

#urlopen方法是向指定的url地址发送请求，并且返回服务器响应的类文件对象
response = urllib2.urlopen('http://www.baidu.com')  

#类文件对象  支持  文件对象的操作方法，例如read()方法读取文件的全部内容，返回的是字符串。
html = response.read()

#打印字符串
print html

以上的代码返回的就是百度首页的HTML内容。
通过右键‘查看源代码’看到的内容和返回的代码是一样的。

Request

在代码1中，urlopen()的参数只有一个url地址。
但是为了完成更复杂的操作，比如增加HTTP报头，必须创建Request实例作为urlopen()的参数；而需要访问的url地址则作为Request实例的参数。
代码2：

#coding= utf-8
import urllib2

url = 'http://www.baidu.com'
#url作为Request方法的参数，构造并返回一个Request对象
request = urllib2.Request(url)

#Request对象作为urlopen方法的参数，发送给服务器并接受响应
response = urllib2.urlopen(request)

html = response.read()

print html

上述代码只是把参数url放在了Reuqest中实现而已。
注意：新建的request实例，除了url参数之外还有设置另外两个参数：

<ul><li>1.data（默认空）：和url一起提交数据（比如要post的数据）。只有POST方式的时候使用这个参数。GET方法不用。</li>
<li>2.headers（默认空）：字典，包含需要发送的HTTP爆头的键值对</li></ul>

User-Agent：

urllib2默认的user-agent的头为Python-urllib/x.y（x和y是Python主版本和次版本号,例如 Python-urllib/2.7）。所以为了不被发现就需要一个新的‘身份’作为User-Agent。
添加Header信息
在HTTP Headers中添加特定的Header，来构造一个完整的HTTP请求消息。
可以通过Request.add_header()添加/修改一个特定的header，也可以用Request.get_header()来查看已有的headers。
添加一个特定的header
代码3：

import urllib2

url = "http://www.baidu.com"

#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = header)

#通过调用Request.add_header() 添加/修改一个特定的header
#keep-alive表示长链接
request.add_header("Connection", "keep-alive")

# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")

response = urllib2.urlopen(request)

print response.code     #可以查看响应状态码
html = response.read()

print html

随机添加/修改一个user-agent：

import urllib2
import random
url = "http://www.ittop.cn"

ua_list = [
   "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
   "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
   "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
   "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]

user_agent = random.choice(ua_list)

request = urllib2.Request(url)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)

# 第一个字母大写，后面的全部小写
request.get_header("User-agent")

response = urllib2.urlopen(request)

html = response.read()
print html