2019-08-09 Python网络爬虫与信息提取（1）初见R

作者: 小孟在充电 | 来源:发表于2019-08-09 12:07 被阅读0次

2019-08-09 Python网络爬虫与信息提取（1）初见R
学习笔记 2018-10-21
requests 获取淘宝搜索页面信息
从Web解析到网络空间
(八)yield关键字的使用(读书笔记)|Python网络爬虫与
(七)Scrapy爬虫的第一个实例(读书笔记)|Python网络
(九)scrapy爬虫的基本使用(读书笔记)|Python网络爬
利用python写简单爬虫1
Python网络爬虫与信息提取入门<6>
Python正则表达式的运用

1.安装并测试 requests库

1.1 管理员权限启动cmd控制台，安装requests库

image.png

1.2 启动jupyter notebook，测试requests库是否安装成功

image.png

requests库的7个主要使用方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get（）	获取HTML网页的主要方法
requests.head()	获取网页头信息的方法
requests.post()	向HTML网页提交POST请求的方法
requests.put()	向HTML网页提交PUT请求的方法
requests.patch()	向HTML网页提交局部修改请求
requests.delete()	向HTML页面提交删除请求

Requests库的get()方法

r = requests.get(url，params = None, **kwargs)

url：你获取页面的url链接
params: url中的额外参数，字典或者字节流格式，可选参数
**kwargs：12个控制访问的参数

Requests库中两个重要对象

response = requests.get(url)

这行代码中 requests 和 get返回的对象中，重中之重是requests返回的对象

image.png
这里我们可以看到requests返回的对象是一个response对象

同样的我们还可以返回爬取页面的头部信息：

image.png

1.3 Response对象的属性

r = requests.get(url)

属性	说明
r.status_code	http请求的返回状态，200表示连接成功，404表示连接失败
r.text	http响应内容的字符串形式，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容分析出的响应内容的编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式
r.headers	http响应内容的头部内容

2. 爬取网页的代码通用框架

2.1 理解Response库的异常

异常	说明
requests.ConnectionError	网络链接错误一场，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status	如果不是200，产生异常requestsHTTPError

2.2 通用代码框架

import requests 
def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return("产生异常")

if __name__=="__main__":
    url = "http://www.baidu.com" #用百度网站作为测试
    print(getHTMLText(url))

2.3 Requests库官方文档
http://2.python-requests.org/zh_CN/latest/user/quickstart.html#id11