urllib2库的简单使用

作者: 博行天下 | 来源:发表于2017-11-19 14:45 被阅读24次

网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地，在Python中有很多库可以用来抓取网页，在前几篇文章分享下，我们用到了urllib2，今天我们来简单再了解下urllib2的简单使用。

1. 第一个实例

urllib2 在 python3.x 中被改为urllib.request，我们针对urllib2先来一段代码：

# 导入urllib2 库
import urllib2

# 向指定的url发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")

# 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read()

# 打印字符串
print html

实际上，如果我们在浏览器上打开百度主页，右键选择“查看源代码”，你会发现，跟我们刚才打印出来的是一模一样。

2. 第二个实例

如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数，我们这里增加第二例代码：

import urllib2

# url 作为Request()方法的参数，构造并返回一个Request对象
request = urllib2.Request("http://www.baidu.com")

# Request对象作为urlopen()方法的参数，发送给服务器并接收响应
response = urllib2.urlopen(request)

html = response.read()

print html

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
(1) data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式
(2) headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对

3. 第三个实例

我们需要用一个合法的身份去请求别人网站，否则别人家的网站是不会被我们访问的，所以我们就应该给我们的这个代码加上一个身份，就是所谓的User-Agent头：

import urllib2

url = "http://www.baidu.com"

#浏览器中公认的 User-Agent，包含在 headers里
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 

request = urllib2.Request(url, headers = headers)

# 向服务器发送这个请求
response = urllib2.urlopen(request)

html = response.read()
print html

4. 第四个实例

在 HTTP Request 中加入特定的 Header，来构造一个完整的HTTP请求消息，可以通过调用Request.add_header() 添加/修改一个特定的header 也可以通过调用Request.get_header()来查看已有的header：

添加一个特定的header

import urllib2

url = "http://www.baidu.com"

#浏览器中的User-Agent
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = headers)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("Connection", "keep-alive")

# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")

response = urllib2.urlopen(req)

print response.code     #可以查看响应状态码
html = response.read()

print html

随机添加/修改User-Agent

import urllib2
import random

url = "http://www.baidu.com"

user-agent-list = [
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]

request = urllib2.Request(url)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", random.choice(user-agent-list))

# 第一个字母大写，后面的全部小写
request.get_header("User-Agent")

response = urllib2.urlopen(req)

html = response.read()
print html

5. 第五个实例

urllib2GET 请求方式，一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中，urllib 和 urllib2 都是接受URL请求的相关模块，但是提供了不同的功能。编码工作使用urllib的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib的unquote()函数：

GET 请求方式

import urllib      # 负责url编码处理
import urllib2

url = "http://www.baidu.com/s"
word = {"wd":"百度"}
word = urllib.urlencode(word) # 转换成url编码格式（字符串）
newurl = url + "?" + word    # url首个分隔符就是 ?

headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

request = urllib2.Request(newurl, headers=headers)

response = urllib2.urlopen(request)

print response.read()

6. 第六个实例

urllib2POST 请求方式，Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对，我们用POST方式发送请求：

import urllib
import urllib2

# POST请求的目标URL
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

headers={"User-Agent": "Mozilla...."}

formdata = {
    "type":"AUTO",
    "i":"i love python",
    "doctype":"json",
    "xmlVersion":"1.8",
    "keyfrom":"fanyi.web",
    "ue":"UTF-8",
    "action":"FY_BY_ENTER",
    "typoResult":"true"
}

data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)
response = urllib2.urlopen(request)
print response.read()

发送POST请求时，需要特别注意headers的一些属性：
Content-Length: 144：是指发送的表单数据长度为144，也就是字符个数是144个。
X-Requested-With: XMLHttpRequest ：表示Ajax异步请求。
Content-Type: application/x-www-form-urlencoded ：表示浏览器提交 Web 表单时使用，表单数据会按照 key1=value1&key2=value2 键值对形式进行编码。

7. 第七个实例

获取AJAX加载的内容，有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了:

import urllib
import urllib2

# Demo1

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"

headers={"User-Agent": "Mozilla...."}

# 变动的是这两个参数，从start开始往后显示limit个
formdata = {
    'start':'0',
    'limit':'10'
}
data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)
response = urllib2.urlopen(request)

print response.read()


# Demo2

url = "https://movie.douban.com/j/chart/top_list?"
headers={"User-Agent": "Mozilla...."}

# 处理所有参数
formdata = {
    'type':'11',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'10'
}
data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)
response = urllib2.urlopen(request)

print response.read()

8. 第八个实例

处理HTTPS请求 SSL证书验证，现在https 开头的网站，urllib2可以为 HTTPS 请求验证SSL证书，就像web浏览器一样，如果网站的SSL证书是经过CA认证的，则能够正常访问，如果SSL证书验证不通过，或者操作系统不信任服务器的安全证书，比如浏览器在访问12306网站，会警告用户证书不受信任。（据说 12306 网站证书是自己做的，没有通过CA认证）：

import urllib
import urllib2
# 1. 导入Python SSL处理模块
import ssl

# 2. 表示忽略未经核实的SSL证书认证
context = ssl._create_unverified_context()

url = "https://www.12306.cn/mormhweb/"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

request = urllib2.Request(url, headers = headers)

# 3. 在urlopen()方法里 指明添加 context 参数
response = urllib2.urlopen(request, context = context)

print response.read()

网友评论

本文标题：urllib2库的简单使用

本文链接：https://www.haomeiwen.com/subject/ewouvxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

urllib2库的简单使用

网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地，在Python中有很多库可以用来抓取网页，在前几篇文章分享下，我们用到了urllib2，今天我们来简单再了解下urllib2的简单使用。

1. 第一个实例

2. 第二个实例

3. 第三个实例

4. 第四个实例

5. 第五个实例

6. 第六个实例

7. 第七个实例

8. 第八个实例

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

Python数据采集与爬虫

大数据爬虫Python AI Sql

首页投稿（暂停使用，暂停投稿）

urllib2库的简单使用

网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地，在Python中有很多库可以用来抓取网页，在前几篇文章分享下，我们用到了urllib2，今天我们来简单再了解下urllib2的简单使用。

1. 第一个实例

2. 第二个实例

3. 第三个实例

4. 第四个实例

5. 第五个实例

6. 第六个实例

7. 第七个实例

8. 第八个实例

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

Python数据采集与爬虫

大数据 爬虫Python AI Sql

首页投稿（暂停使用，暂停投稿）

大数据爬虫Python AI Sql