爬虫复习总结

作者: 山野过客 | 来源:发表于2019-06-25 15:14 被阅读0次

爬虫复习总结
Python实战计划学习笔记：week2_1 在MongoDB中
爬虫
爬虫基础复习
资料
小小分布式爬虫从架构到实现（一）
爬虫
jq用python爬虫抓站的一些技巧总结
爬虫就业冲刺20180818
Python爬虫基础教程（三）

HTTP的端口号为80

HTTPS的端口号为443（HTTPS协议（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP协议的基础上加入SSL层。 SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。）

但是，有些网站虽然使用了HTTPS协议，但是还是会提示不安全：

因为这些网站的证书可能是自己产生的，不是通过ＣＡ机构同意颁发的，所以不被信任，但是他们的数据传输依然是经过SSL加密的，后面我们在爬取这类网站的时候，需要忽略证书，否则会报ssl错误

Cookie 和 Session： 服务器和客户端的交互仅限于请求/响应过程，结束之后便断开，在下一次请求时，服务器会认为新的客户端。

为了维护他们之间的链接，让服务器知道这是前一个用户发送的请求，必须在一个地方保存客户端的信息。

Cookie：通过在客户端记录的信息确定用户的身份。

Session：通过在服务器端记录的信息确定用户的身份。

常见状态码：

100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。

2xx：表示服务器成功接收请求并已完成整个处理过程。

200（OK 请求成功）。

3xx：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用

301:　永久重定向

302：临时重定向（所请求的页面已经临时转移至新的url）

4xx：客户端的请求有错误.

400:错误请求，服务器无法解析请求

401:未授权，没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

5xx:服务器端出现错误

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用