美文网首页
浅谈爬虫

浅谈爬虫

作者: 云Shen不知处 | 来源:发表于2018-01-10 16:02 被阅读0次

1.什么是爬虫?

爬虫:就是抓取网页中的数据

2.为什么选择python做爬虫?

可以做爬虫的语言有很多,如PHP、Java、c/c++、Python
1.php虽然是世界上最好的语言,但是天生 不是干这个的,而且对多线程、异步支持不够好,并发处理能力不好。爬虫是工具性程序,对速度和效率要求比较高。
2.java的网络爬虫生态圈很完善,是python爬虫最大的对手,但是语言本身很笨重,代码量很大
3.c/c++ 运行效率和性能几乎最强,但是学习成本高,代码成型比较慢,不是正确的选择。
4.python,语法优美,代码简洁、开发效率高、支持模块多,有强大的爬虫Scrapy,调用接口方便。

3. 通用爬虫和聚焦爬虫

一般情况下,根据爬虫程序的应用场景的不同,可以将爬虫程序大致分为两种类型:通用爬虫和聚焦爬虫

通用爬虫:通用爬虫是网络搜索引擎的一部分,遵循爬虫的robot协议,负责采集网络中的网页信息内容并建立索引,在自己的搜索引擎服务器上建议网络信息的索引镜像备份文件,达到对网络上的信息内容可以快速检索的目的

robot协议:是关于网络爬虫的一种约定的协议,robot协议明确告诉了通用网络爬虫,哪些数据内容是可以爬取的,哪些数据内容是不允许爬虫采集的,如果是合法合规的爬虫程序,必须遵循robot协议约定的采集内容区域,否则可能涉及到维权行为!
通用爬虫在一定程度上满足了大量网民的需求,可以通过搜索引擎快速检索需要的网页

但是公司针对性的获取数据的场景,通用爬虫就存在了很大的限制,如通用爬虫获取的网页数据对于公司的需求来说很大一部分是无效的,因为对于分析数据来说网页中的广告信息、轮播图片信息、导航信息等等都是无效数据;公司不同的需求需要采集的数据形式也是多样的,通用搜索引擎的常规操作方式并不能完全满足这样的操作现状的;尤其是针对有特定语义化搜索的数据来说,通用搜索引擎更是无能为力的的!
聚焦爬虫: 聚焦爬虫是通过编程的方式针对特定的需要进行数据定向采集的一种手段,能更好的更加准确的采集用户需要的数据,在一定程序上能很好的满足业务数据需要。缺点在于聚焦爬虫的编码工作比较繁琐,针对不同类型的数据采集工作,需要定制化的开发不同的程序代码。然而~瑕不掩瑜的是,定向爬虫由于其特定收的采集手段,尤其是程序开发人员对于问题处理的操作方式愈发先进和自动化,聚焦爬虫更加受到公司的欢迎!

相关文章

  • 简单爬虫架构的实现

    在我的上一篇文章里简单介绍了一下最简单的爬虫架构:《浅谈简单爬虫架构》如下图所示简单爬虫架构 框架 mySpide...

  • 浅谈爬虫

    1.什么是爬虫? 爬虫:就是抓取网页中的数据 2.为什么选择python做爬虫? 可以做爬虫的语言有很多,如PHP...

  • 【工作】浅谈爬虫

    本来想继续写Go方面的,不过由于五一节前收到需要爬取3个网站的一些数据,那就刚好总结一下。文章讲的都是很基本让你大...

  • 浅谈简单爬虫架构

    前言 这个假期我开始系统地学习python,列一下我所知的python学习网站: 廖雪峰的官方网站 菜鸟教程 慕课...

  • 2020-07-02

    浅谈 浅谈模块设计宏内核 浅谈接口设计Flags 浅谈稳定性设计重试 浅谈人员业务结构设计矩阵式 浅谈接口设计 |...

  • 浅谈网络爬虫中广度优先算法和代码实现

    前几天给大家分享了网络爬虫中深度优先算法的介绍及其代码实现过程,没来得及上车的小伙伴们可以戳这篇文章——浅谈网络爬...

  • 浅谈Filecoin(二)

    浅谈Filecoin(二) 浅谈Filecoin(一)链接:浅谈Filecoin(一) (Verifiable)M...

  • 浅谈runtime关联

    浅谈runtime关联 浅谈runtime关联

  • 浅谈编译过程

    浅谈编译过程浅谈编译过程

  • 浅谈Android Architecture Component

    浅谈Android Architecture Components 浅谈Android Architecture ...

网友评论

      本文标题:浅谈爬虫

      本文链接:https://www.haomeiwen.com/subject/roponxtx.html