美文网首页
爬虫概述

爬虫概述

作者: 不一样的丶我们 | 来源:发表于2018-01-10 19:03 被阅读16次

网络爬虫

  • 主要是针对网络上的数据通过编程的方式,自动采集的一种手段。公司除了从第三方平台直接使用免费的数据或者购买数据之外,更多的是通过网络爬虫的方式让爬虫工程师负责采集公司所需要的数据!

通用爬虫和聚焦爬虫

  • 一般情况下,根据爬虫程序的应用场景的不同,可以将爬虫程序大致分为两种类型:通用爬虫和聚焦爬虫
  • 通用爬虫
    • 通用爬虫是网络搜索引擎的一部分,遵循爬虫的robot协议负责采集网络中的网页信息内容并建立索引,在自己的搜索引擎服务器上建立网络信息的索引镜像备份文件,达到对网络上的信息内容可以快速检索的目的

robot协议:是关于网络爬虫的一种约定的协议,robot协议明确告诉了网络爬虫,哪些数据内容是可以爬取的,哪些数据内容是不允许爬虫采集的,如果是合法合规的爬虫程序,必须遵循robot协议约定的采集内容区域,否则可能设计到维权行为!

  • 聚焦爬虫
    • 聚焦爬虫是通过编程的方式针对特定的需要进行数据定向采集的一种手段,能更好的更加准确的采集用户需要的数据,在一定程度上能很好的满足业务数据需要。缺点在于聚焦爬虫的编码工作比较繁琐,针对不同类型的数据采集工作,需要定制化的开发不同的程序代码。然后~瑕不掩瑜的是,定向爬虫由于其特定的采集手段,尤其是程序开发人员对于问题处理的操作方式愈发先进和自动化,聚焦爬虫更加受到公司的欢迎。

相关文章

  • 爬虫概述

    一个爬虫实现过程大致可以分为四部分:页面分析,发起请求,解析数据,文件存储 ,下面的思维导图就这四部分展开,后面的...

  • 爬虫概述

    网络爬虫 主要是针对网络上的数据通过编程的方式,自动采集的一种手段。公司除了从第三方平台直接使用免费的数据或者购买...

  • 爬虫概述

    简介 爬虫顾名思义是爬取数据的工具,但因为爬取数据的多样化和爬取流程的相似性形成了共识的爬虫框架。 整体结构 一般...

  • 爬虫概述

    首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照...

  • 爬虫概述

    1.爬虫的分类1.1根据被爬取网站的数量不同,可以分为:①通用爬虫:如搜索引擎。 依靠连接,漫无目的全网爬取②聚焦...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • scrapy0700:深度爬虫

    scrapy深度爬虫 ——编辑:大牧莫邪 本章内容 深度爬虫概述 scrapy Spider实现的深度爬虫 scr...

  • 爬虫01:概述

    爬虫概述 1.目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2.章节内容 2.1爬虫...

  • 深度爬虫

    scrapy深度爬虫 1.深度爬虫概述2.scrapy Spider实现的什么爬虫3.scrapy CrawlSp...

网友评论

      本文标题:爬虫概述

      本文链接:https://www.haomeiwen.com/subject/omaonxtx.html