美文网首页
网络爬虫:urllib模块应用10--自定义opener

网络爬虫:urllib模块应用10--自定义opener

作者: 牛耀 | 来源:发表于2018-12-23 14:59 被阅读0次
    • Handler处理器 和 自定义Opener

      opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。

      但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
      使用相关的 Handler处理器 来创建特定功能的处理器对象;
      然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
      使用自定义的opener对象,调用open()方法发送请求。

      如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)

    from urllib import request
    
    # 自定义发起请求的方法urlopen
    def send_request(req,timeout=100,context=None):
        """
    
        :param req: request请求对象
        :param timeout: 超时时间
        :param context: 忽略ssl证书
        :return:
        handler:创建handler处理器是为了实现特定的功能
        opener:是为了使用opener.open方法发起请求
        """
        if context:
            handler = request.HTTPSHandler(context=context,debuglevel=1)
            opener = request.build_opener(handler)
            return opener.open(req,timeout=timeout)
        else:
            # 默认为0,设置1的话表示开启debug模式,会对请求进行跟踪,方便查看每一步
            handler = request.HTTPSHandler(debuglevel=1)
            opener = request.build_opener(handler)
            return opener.open(req, timeout=timeout)
    
    url = 'http://www.baidu.com'
    req_header = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0',
            }
    req = request.Request(url, headers=req_header)
    response = send_request(req)
    print(response.read().decode('utf8'))
    

    相关文章

      网友评论

          本文标题:网络爬虫:urllib模块应用10--自定义opener

          本文链接:https://www.haomeiwen.com/subject/azlnkqtx.html