python爬虫之requests获取网页

作者: 行走世间的狮子 | 来源:发表于2019-08-11 22:20 被阅读0次

requests函数及对象属性

基础函数之GET请求
res = get(url， headers = {}， params = {}，proxies={}, auth=(,),verify=True, timeout)
- 功能：向网站发起GET请求，获取响应对象
- 参数：
  - url ：请求网站地址
  - headers ：请求头
  - params ： url地址参数
  - proxies ：代理ip
  - auth ： web客户端用户密码
  - verify ： SSL安全认证
  - timeout ：超时时间
- 返回值：响应对象
基础函数之POST请求
res = post(url, headers = {}, data = {}， timeout)
- 功能：向网站发起POST请求，获取响应对象
- 参数：
  - url ：请求网站地址
  - headers ：请求头
  - data ：表单信息
  - timeout ：超时时间
- 返回值：响应对象

响应对象属性

res.text
# 功能：响应内容，返回字符串形式

res.content
# 功能：响应内容，返回字节流形式

res.encoding
# 功能：获取响应内容编码

res.status_code
# 功能：获取响应码

res.url
# 功能：获取实际返回数据的url地址

======================================================================

爬虫模块之基础请求

1、基础请求之GET请求

    import requests

    url = ''
    headers = {'User-Agent':''}
    res = requests.get(url, headers=headers)
    res.encoding = 'utf-8'
    print(res.text)

2、基础请求之POST请求

  ...
  data = {}
  res = requests.post(url, headers=headers, data=data)
  ...

======================================================================

爬虫模块之高级请求

1、cookie模拟登陆

    ...
    headers = {
        'User-Agent' : '',
        'Cookie'     : '',
    }
    res = request.get(url, headers=headers)
    ...

2、GET请求带参数

    ...
    params = {}
    res = request.get(url, headers=headers, params = params)
    ...

3、代理ip
获取代理ip网站：西刺代理、快代理、全网代理
高匿代理：服务器只能看到代理ip
透明代理：服务器能看到两个ip，代理ip和用户真实ip

    ...
    proxies = {'协议' ： '协议://ip地址:端口号'}
    proxies = {'协议' ： '协议://用户名:密码@ip地址:端口号'}
    res = request.get(url, headers=headers, proxies=proxies)
    ...

4、web客户端验证

    ...
    auth = ('用户名', '密码')
    res = request.get(url, headers=headers, auth=auth)
    ...

5、SSL证书认证

    ...
    # 不做认证，默认verfiy=True，进行SSL证书认证
    res = request.get(url, headers=headers, verify=False)
    ...

网友评论

本文标题：python爬虫之requests获取网页

本文链接：https://www.haomeiwen.com/subject/mqrejctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！