Python_爬虫_06 urllib 高级用法1-自定义Ope

作者: 暴走的金坤酸奶味 | 来源:发表于2018-12-23 18:10 被阅读0次

urllib 高级用法1-自定义Opener

Handler处理器和自定义Opener

opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能

使用相关的 Handler处理器来创建特定功能的处理器对象；
然后通过 urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；
使用自定义的opener对象，调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener() 将自定义的 opener 对象定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

import urllib.request
# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
http_handler = urllib.request.HTTPHandler()
# 调用urllib.request.build_opener()方法，创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)

# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")

# 调用自定义opener对象的open()方法，发送request请求
response = opener.open(request)

# 获取服务器响应内容
print (response.read().decode())

这种方式发送请求得到的结果，和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作

from urllib import request


def send_request(req, timeout=100, context=None):
    """
    自己定义一个方法发起请求
    :param req: request请求对象
    :param timeout: 设置请求的超时时间
    :param context: 忽略ssl证书认证（ca证书）
    :return:
    handler:创建handler处理器是为了实现特定功能
    opener：为了使用opener.open方法发起请求
    """
    if context:
        handler = request.HTTPSHandler(context=context,debuglevel=1)
        opener = request.build_opener(handler)
        return opener.open(req, timeout=timeout)
    else:
        #debuglevel默认为0,设置为１的话表示开启debug模式,
        #会对请求进行跟踪,方便查看每一个请求的信息
        handler = request.HTTPSHandler(debuglevel=1)
        opener = request.build_opener(handler)
        return opener.open(req, timeout=timeout)

url = 'http://www.baidu.com/'

req_header = {
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

req = request.Request(url,headers=req_header)

response = send_request(req)

print(response.read().decode('utf-8'))

网友评论

本文标题：Python_爬虫_06 urllib 高级用法1-自定义Ope

本文链接：https://www.haomeiwen.com/subject/htwnkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python_爬虫_06 urllib 高级用法1-自定义Ope

urllib 高级用法1-自定义Opener

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读