爬虫入门系列（二）：优雅的HTTP库requests

作者: 天善智能 | 来源:发表于2018-02-27 11:04 被阅读24次

爬虫入门系列（六）：正则表达式完全指南（下）
爬虫入门系列（二）：优雅的HTTP库requests
爬虫入门系列（二）：优雅的HTTP库requests
爬虫入门系列（三）：用 requests 构建知乎 API
十行代码体验爬虫的尖锐之处
爬虫入门
2019-01-01
[Python]从Web解析到网络空间（一些第三方库的简要介绍）
学习笔记 2018-10-21
Python网络爬虫与信息提取（一）

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

作者：刘志军，6年+Python使用经验，高级开发工程师，

目前在互联网医疗行业从事Web系统构架工作

个人公众号：Python之禅（微信ID：vttalk）

Python 提供了很多模块来支持 HTTP 协议的网络编程，urllib、urllib2、urllib3、httplib、httplib2，都是和 HTTP 相关的模块，看名字觉得很反人类，更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异，如果业务代码要同时兼容 2 和 3，写起来会让人崩溃。

幸运地是，繁荣的 Python 社区给开发者带来了一个非常惊艳的 HTTP 库 requests，一个真正给人用的HTTP库。它是 GitHUb 关注数最多的 Python 项目之一，requests 的作者是 Kenneth Reitz 大神。

requests 实现了HTTP协议中绝大部分功能，它提供的功能包括 Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性，最重要的是它同时兼容 python2 和 python3。

快速入门

requests 的安装可以直接使用 pip 方法：pip install requests

请求返回 Response 对象，Response 对象是对 HTTP 协议中服务端返回给浏览器的响应数据的封装，响应的中的主要元素包括：状态码、原因短语、响应首部、响应体等等，这些属性都封装在Response 对象中。

requests 除了支持 GET 请求外，还支持 HTTP 规范中的其它所有方法，包括 POST、PUT、DELTET、HEADT、OPTIONS方法。

构建请求查询参数

很多URL都带有很长一串参数，我们称这些参数为URL的查询参数，用”?”附加在URL链接后面，多个参数之间用”&”隔开，比如：http://fav.foofish.net/?p=4&s=20 ，现在你可以用字典来构建查询参数：

构建请求首部 Headers

requests 可以很简单地指定请求首部字段 Headers，比如有时要指定 User-Agent 伪装成浏览器发送请求，以此来蒙骗服务器。直接传递一个字典对象给参数 headers 即可。

构建 POST 请求数据

requests 可以非常灵活地构建 POST 请求需要的数据，如果服务器要求发送的数据是表单数据，则可以指定关键字参数 data，如果要求传递 json 格式字符串参数，则可以使用json关键字参数，参数的值都可以字典的形式传过去。

作为表单数据传输给服务器

作为 json 格式的字符串格式传输给服务器

Response中的响应体

HTTP返回的响应消息中很重要的一部分内容是响应体，响应体在 requests 中处理非常灵活，与响应体相关的属性有：content、text、json()。

content 是 byte 类型，适合直接将内容保存到文件系统或者传输到网络中

text 是 str 类型，比如一个普通的 HTML 页面，需要对文本进一步分析时，使用 text。

如果使用第三方开放平台或者API接口爬取数据时，返回的内容是json格式的数据时，那么可以直接使用json()方法返回一个经过json.loads()处理后的对象。

代理设置

当爬虫频繁地对服务器进行抓取内容时，很容易被服务器屏蔽掉，因此要想继续顺利的进行爬取数据，使用代理是明智的选择。如果你想爬取墙外的数据，同样设置代理可以解决问题，requests 完美支持代理。

超时设置

requests 发送请求时，默认请求下线程一直阻塞，直到有响应返回才处理后面的逻辑。如果遇到服务器没有响应的情况时，问题就变得很严重了，它将导致整个应用程序一直处于阻塞状态而没法处理其他请求。

正确的方式的是给每个请求显示地指定一个超时时间。

Session

在爬虫入门系列（一）：快速理解HTTP协议中介绍过HTTP协议是一中无状态的协议，为了维持客户端与服务器之间的通信状态，使用 Cookie 技术使之保持双方的通信状态。

有些网页是需要登录才能进行爬虫操作的，而登录的原理就是浏览器首次通过用户名密码登录之后，服务器给客户端发送一个随机的Cookie，下次浏览器请求其它页面时，就把刚才的 cookie 随着请求一起发送给服务器，这样服务器就知道该用户已经是登录用户。

构建一个session会话之后，客户端第一次发起请求登录账户，服务器自动把cookie信息保存在session对象中，发起第二次请求时requests 自动把session中的cookie信息发送给服务器，使之保持通信状态。

项目实战

最后是一个实战项目，如何用 requests 实现知乎自动登录并给用户发私信，我会在下一篇文章中进行讲解。

爬虫入门系列（六）：正则表达式完全指南（下）
爬虫入门系列目录：爬虫入门系列（一）：快速理解HTTP协议爬虫入门系列（二）：优雅的HTTP库requests...
爬虫入门系列（二）：优雅的HTTP库requests
感谢关注天善智能，走好数据之路↑↑↑ 欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领...
爬虫入门系列（二）：优雅的HTTP库requests
在爬虫入门系列（一）：快速理解HTTP协议中介绍了 HTTP 协议，Python 提供了很多模块来基于 HTTP ...
爬虫入门系列（三）：用 requests 构建知乎 API
在爬虫系列文章优雅的HTTP库requests 中介绍了 requests 的使用方式，这一次我们用 reque...
十行代码体验爬虫的尖锐之处
爬虫入门模块: requests库 > 众所周知，学好requests库模块，就能解决爬虫一半的问题,下面让我们一...
爬虫入门
参考博客：爬虫入门系列简要介绍： 1.用到的Python库： requests: 主要用于获取网页结果 Beau...
2019-01-01
python爬虫---requests库的用法 requests是python实现的简单易用的HTTP库，使用起来...
[Python]从Web解析到网络空间（一些第三方库的简要介绍）
Python库之网络爬虫 http://www.python-requests.org/Requests:最友好的...
学习笔记 2018-10-21
课程 Python网络爬虫与信息提取 requests库入门 IndentationError: unexpect...
Python网络爬虫与信息提取（一）
Reference:第一周网络爬虫之规则单元1：Requests库入门 1-1 Requests库的安装 1-2...