美文网首页
python爬虫之requests获取网页

python爬虫之requests获取网页

作者: 行走世间的狮子 | 来源:发表于2019-08-11 22:20 被阅读0次

    requests函数及对象属性

    1. 基础函数之GET请求
      res = get(url, headers = {}, params = {},proxies={}, auth=(,),verify=True, timeout)

      • 功能 : 向网站发起GET请求,获取响应对象
      • 参数 :
        • url : 请求网站地址
        • headers : 请求头
        • params : url地址参数
        • proxies : 代理ip
        • auth : web客户端用户密码
        • verify : SSL安全认证
        • timeout : 超时时间
      • 返回值 :响应对象
    2. 基础函数之POST请求
      res = post(url, headers = {}, data = {}, timeout)

      • 功能 : 向网站发起POST请求,获取响应对象
      • 参数 :
        • url : 请求网站地址
        • headers : 请求头
        • data : 表单信息
        • timeout : 超时时间
      • 返回值 :响应对象
    3. 响应对象属性

      res.text
      # 功能:响应内容,返回字符串形式
      
      res.content
      # 功能:响应内容,返回字节流形式
      
      res.encoding
      # 功能:获取响应内容编码
      
      res.status_code
      # 功能:获取响应码
      
      res.url
      # 功能:获取实际返回数据的url地址
      

    ======================================================================

    爬虫模块之基础请求

    1、基础请求之GET请求

        import requests
    
        url = ''
        headers = {'User-Agent':''}
        res = requests.get(url, headers=headers)
        res.encoding = 'utf-8'
        print(res.text)
    

    2、基础请求之POST请求

      ...
      data = {}
      res = requests.post(url, headers=headers, data=data)
      ...
    

    ======================================================================

    爬虫模块之高级请求

    1、cookie模拟登陆

        ...
        headers = {
            'User-Agent' : '',
            'Cookie'     : '',
        }
        res = request.get(url, headers=headers)
        ...
    

    2、GET请求带参数

        ...
        params = {}
        res = request.get(url, headers=headers, params = params)
        ...
    

    3、代理ip
    获取代理ip网站:西刺代理、快代理、全网代理
    高匿代理: 服务器只能看到代理ip
    透明代理: 服务器能看到两个ip,代理ip和用户真实ip

        ...
        proxies = {'协议' : '协议://ip地址:端口号'}
        proxies = {'协议' : '协议://用户名:密码@ip地址:端口号'}
        res = request.get(url, headers=headers, proxies=proxies)
        ... 
    

    4、web客户端验证

        ...
        auth = ('用户名', '密码')
        res = request.get(url, headers=headers, auth=auth)
        ...
    

    5、SSL证书认证

        ...
        # 不做认证,默认verfiy=True,进行SSL证书认证
        res = request.get(url, headers=headers, verify=False)
        ...
    

    相关文章

      网友评论

          本文标题:python爬虫之requests获取网页

          本文链接:https://www.haomeiwen.com/subject/mqrejctx.html