美文网首页
爬虫基础知识点

爬虫基础知识点

作者: Lrrrrtt | 来源:发表于2018-10-15 11:03 被阅读0次

什么是爬虫

就是一段自动获取互联网信息的程序。

爬虫基本的运作流程

  1. 首先确定目标网站,分析目标url
  2. 根据url发起请求,获取服务器返回的响应
  3. 从响应结果中提取目标数据
    a) 提取目标数据
    b) 提取新的url,执行第二步的循环
  4. 最终所有的目标url访问完毕,爬虫结束

网络的三大特性

  1. 每一个网页都有一个唯一的url(同意资源定位符)
  2. 每一个网页都市一个html文本(超文本)
  3. 都是通过http/https(超文本传输协议)获取网页数据

爬虫的分类

通用爬虫:

通用网络爬虫是捜索引擎的重要组成部分,尽可能全的爬虫全网的数据,将互联网上的网页下载到本地,将获取到的数据进行处理(关键字的提取,分词,去广告),最终根据用户检索信息,将数据返回给用户。

聚焦爬虫:

有目的性的获取网页的数据,(面向特定主题的需求)

通用爬虫如何工作

1)必须要有种子(目标)url
2)根据url发起请求,获取服务器返回的响应
a. 获取网页源码,保存在本地服务器
b. 从响应的结果中提取新的url,继续发起请求
3)所有的url请求完毕,爬虫结束

种子url的来源

  1. 主动向搜索引擎提交
  2. 网页里面的外链(友情链接)
  3. 搜索引擎和DNS服务商合作
    DNS:将域名解析为ip的一种技术

搜索引擎的排名

  1. pankpage(浏览量/人气)
  2. 竞价排名:通过资金购买排名

搜索引擎的工作流程:

通过url获取页面源码--> 将页面数据存储本地--> 数据处理--> 排名

搜索引擎的缺点

  1. 需要遵守robot协议,有些路径下的数据不允许访问
  2. 搜索引擎只能爬取一些简单的文字,pdf,word文档的信息,不支持二进制流
  3. 不能够根据不同用户的不同需求返回结果
  4. 搜索结果大部分都是网页,很多网页的信息用不着

相关文章

网友评论

      本文标题:爬虫基础知识点

      本文链接:https://www.haomeiwen.com/subject/yjtfzftx.html