美文网首页
爬虫复习总结

爬虫复习总结

作者: 山野过客 | 来源:发表于2019-06-25 15:14 被阅读0次

HTTP的端口号为80

 HTTPS的端口号为443(HTTPS协议(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP协议的基础上加入SSL层。 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。)

但是,有些网站虽然使用了HTTPS协议,但是还是会提示不安全:

因为这些网站的证书可能是自己产生的,不是通过CA机构同意颁发的,所以不被信任,但是他们的数据传输依然是经过SSL加密的,后面我们在爬取这类网站的时候,需要忽略证书,否则会报ssl错误

Cookie 和 Session: 服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。

为了维护他们之间的链接,让服务器知道这是前一个用户发送的请求,必须在一个地方保存客户端的信息。

Cookie:通过在 客户端 记录的信息确定用户的身份。

Session:通过在 服务器端 记录的信息确定用户的身份。

常见状态码

100~199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。

2xx:表示服务器成功接收请求并已完成整个处理过程。

200(OK 请求成功)。

3xx:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、 常用

301: 永久重定向

302:临时重定向(所请求的页面已经临时转移至新的url)

4xx:客户端的请求有错误.

400:错误请求,服务器无法解析请求

401:未授权,没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

5xx:服务器端出现错误

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用

相关文章

  • 爬虫复习总结

    HTTP的端口号为80 HTTPS的端口号为443(HTTPS协议(Hypertext Transfer Prot...

  • Python实战计划学习笔记:week2_1 在MongoDB中

    学习爬虫第二周,对Mongodb进行学习。 代码如下: 运行效果: 数据库情况: 总结: 复习了网页爬虫的相关知识...

  • 爬虫

    复习 什么是爬虫?爬虫是用来做什么的?怎么使用爬虫爬取数据? 数据的重要性 数据的来源 爬取数据的规则【通用爬虫 ...

  • 爬虫基础复习

    爬虫 1. 请阐述通用爬虫和聚焦爬虫的概念 通常情况下,我们将搜索引擎使用的爬虫我们称之为通用爬虫,就像谷歌和百度...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • 小小分布式爬虫从架构到实现(一)

    做了一年多的爬虫相关工作了,来总结总结工作吧。 爬虫,是这样开始的…… 首先,为啥要做这个爬虫呢?因为公司在做大数...

  • 爬虫

    总结爬虫流程:爬取--->解析--->存储什么是爬虫?请求网站并提取数据的自动化程序就叫做爬虫。爬虫的主要目的?是...

  • jq用python爬虫抓站的一些技巧总结

    用python爬虫抓站的一些技巧总结 原文出处: observer 累积不少爬虫抓站的经验,在此总结一下,那么...

  • 爬虫就业冲刺20180818

    一、教学内容 1、使用scrapy实现之前的音乐爬虫 教学内容: 复习之前的音乐爬虫项目 scrapy使用进阶 使...

  • Python爬虫基础教程(三)

    九、多线程爬虫 9.1利用多线程爬虫爬取糗事百科的资源: 十、爬虫代码总结: 要实现一个完整的爬虫,无外乎4...

网友评论

      本文标题:爬虫复习总结

      本文链接:https://www.haomeiwen.com/subject/eoacgqtx.html