网络爬虫(一)

作者: zhangxiaohao | 来源:发表于2019-05-07 06:42 被阅读24次

网络爬虫是一种程序,通过代码运行模拟浏览器上网,去网站(网页)上抓取数据。

爬虫大约分三种:
  1. 通用爬虫: 获取相关页面整页数据。
  2. 聚焦爬虫:根据所需抓取页面指定的数据。
  3. 增量爬虫:检测到网页上数据有更新时,获取当前更新过的数据。
robots 协议

网站中往往声明允许爬取那部分数据、不允话爬取那些数据的授权,这些授权写在robots.txt中,称为robots协议。

需要了解的http与https协议中的几点知识。
  1. http协议:
  • 请求头 request headers

user-agent:请求载体的身份标识。
connect:请求完毕后,是断开还是保持连结。

  • 响应头 response headers

content-type:服务器响应后发送给客户端的数据类型。

  1. https协议:
    该协议是安全的http协议,顾名思义就是在http协议上加上了安全协议。
    https采取得是证书密钥加密方式。

加密方式有三种:
1.对称密钥加密。
2.非对称密钥加密。
3.证书密钥加密。

  1. 说明:
    两种协议包含的请求头、请求体、响应头、响应体每一类型都包含很多属性,我们学爬虫只需掌握user-agent、connect、content-type等属性就可以。

相关文章

网友评论

    本文标题:网络爬虫(一)

    本文链接:https://www.haomeiwen.com/subject/srrjoqtx.html