美文网首页
爬虫分类

爬虫分类

作者: 苗_a | 来源:发表于2019-02-17 21:11 被阅读29次

通用爬虫 和 聚焦爬虫 两种

通用网络爬虫:主要用于大型搜索引擎

比如用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析处理,从收录的网页中找出相关的再根据一定的排名规则进行排序后展现给用户,那么就需要尽可能多的互联网的优质网页
聚焦网络爬虫:也叫主题网络爬虫,爬取的目标网页定位在与主题相关的页面中,主要为某一类特定的人群提供服务,可以节省大量的服务器资源和带宽资源
比如要获取某一垂直领域的数据或有明确的检索需求,此时需要过滤掉一些无用的信息

爬虫的作用

市场分析:电商分析、商圈分析、一二级市场分析等
市场监控:电商、新闻、房源监控等
商机发现:招投标情报发现、客户资料发掘、企业客户发现等


123456.png

认识网址的构成

一般一个网站的网址=域名+自己编写的页面,我们在访问同一网站的网页时,域名一般是不会改变的,因此我们爬虫所需要解析的就是网站自己所编写的不同页面的入口url,只有解析出来各个页面的入口,才能开始爬虫
爬虫基本的运作流程

首先确定目标网站,分析目标url
根据url发起请求,获取服务器返回的响应
从响应结果中提取目标数据
a) 提取目标数据
b) 提取新的url,执行第二步的循环
最终所有的目标url访问完毕,爬虫结

相关文章

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 爬虫分类

    通用爬虫 和 聚焦爬虫 两种 通用网络爬虫:主要用于大型搜索引擎 比如用户在百度搜索引擎上检索对应关键词时,百度将...

  • 爬虫分类

    爬虫,又称网络爬虫,也叫网页蜘蛛。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(Gene...

  • Python爬虫简述系列之一

    1,简单分类 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 2,通用爬虫 通用网络爬虫 是 捜索引...

  • 爬虫(一)

    分类 根据应用的场景不同可分为通用爬虫和聚焦爬虫 通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Yahoo...

  • 爬虫的分类

    爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型 通用网络爬虫:全网爬虫,爬取对象有种子URL...

  • python进阶三:爬虫

    1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫 通用搜索引擎(Search Engine)工作原理step1:抓...

  • (2018-05-23.Python从Zero到One)7、(爬

    新浪网分类资讯爬虫 思考:如何将已有的Scrapy爬虫项目,改写成scrapy-redis分布式爬虫。 要求:将所...

  • python3爬虫修炼手册-Part1

    1.1、爬虫分类(1)通用爬虫通常是对搜索引擎的内容,全部爬取下来,速度较快(2)聚焦爬虫聚焦爬虫的工作流程较为复...

网友评论

      本文标题:爬虫分类

      本文链接:https://www.haomeiwen.com/subject/dneneqtx.html