美文网首页
Python_爬虫_06 urllib 高级用法1-自定义Ope

Python_爬虫_06 urllib 高级用法1-自定义Ope

作者: 暴走的金坤酸奶味 | 来源:发表于2018-12-23 18:10 被阅读0次

    urllib 高级用法1-自定义Opener

    Handler处理器 和 自定义Opener

    • opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)
    • 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能
    1. 使用相关的 Handler处理器 来创建特定功能的处理器对象;
    2. 然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
    3. 使用自定义的opener对象,调用open()方法发送请求。
    • 如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)
    import urllib.request
    # 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
    http_handler = urllib.request.HTTPHandler()
    # 调用urllib.request.build_opener()方法,创建支持处理HTTP请求的opener对象
    opener = urllib.request.build_opener(http_handler)
    
    # 构建 Request请求
    request = urllib.request.Request("http://www.baidu.com/")
    
    # 调用自定义opener对象的open()方法,发送request请求
    response = opener.open(request)
    
    # 获取服务器响应内容
    print (response.read().decode())
    

    这种方式发送请求得到的结果,和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

    如果在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作

    from urllib import request
    
    
    def send_request(req, timeout=100, context=None):
        """
        自己定义一个方法发起请求
        :param req: request请求对象
        :param timeout: 设置请求的超时时间
        :param context: 忽略ssl证书认证(ca证书)
        :return:
        handler:创建handler处理器是为了实现特定功能
        opener:为了使用opener.open方法发起请求
        """
        if context:
            handler = request.HTTPSHandler(context=context,debuglevel=1)
            opener = request.build_opener(handler)
            return opener.open(req, timeout=timeout)
        else:
            #debuglevel默认为0,设置为1的话表示开启debug模式,
            #会对请求进行跟踪,方便查看每一个请求的信息
            handler = request.HTTPSHandler(debuglevel=1)
            opener = request.build_opener(handler)
            return opener.open(req, timeout=timeout)
    
    url = 'http://www.baidu.com/'
    
    req_header = {
        'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    
    req = request.Request(url,headers=req_header)
    
    response = send_request(req)
    
    print(response.read().decode('utf-8'))
    

    相关文章

      网友评论

          本文标题:Python_爬虫_06 urllib 高级用法1-自定义Ope

          本文链接:https://www.haomeiwen.com/subject/htwnkqtx.html