美文网首页关于搜索,我们聊聊python爬虫
【爬虫】进阶修习系列 · 一

【爬虫】进阶修习系列 · 一

作者: 荒剑离 | 来源:发表于2015-10-22 14:49 被阅读449次

    本文会涉及以下内容:【不定时修改中。。。】

    1. pyspider的介绍;

    2. 爬虫架构的典型设计;

    3. 垂直搜索引擎的初探。

    PySpider

    之前的爬虫策略很简单,用得python2.7:urllib2 + BeautifulSoup。

    这种方式小巧方便,但是面对大规模的爬取需求时就变得冗余麻烦,需要有一个爬虫框架,能够分布式运行,队列控制。

    可以简单的认为目前的需求就是一个垂直领域的爬虫框架,对数量可观的网站中的某些确定页面进行周期性的爬取,需要爬取策略定制方便可调整,暂时不需要实时响应。

    爬虫框架之前试过scrapy,但是种种原因使用并不成功,于是来了解下pyspider。

    特性:

    1) web可视化监控;

    2) 队列调度与周期控制;

    3) 支持JS页面抓取。

    4) 。。。pyspider介绍

    设计架构:

    pyspider架构

    pyspider架构设计

    简单的面见了pyspider,那么如何使用:

    pyspider 爬虫教程(一):HTML 和 CSS 选择器

    pyspider 爬虫教程(二):AJAX 和 HTTP

    pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面

    以上所有pyspider的介绍链接均来自开发者的博客,项目已开源GitHub

    垂直搜索引擎

    这是针对某一行业或领域的专业搜索引擎,是对网页库中某类专门信息的一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

    垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出的搜索引擎服务模式,通过针对某一特定领域、人群或需求提供有一定价值的信息和相关服务。特点是“专、精、深”,具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎显得更专注、具体和深入。

    爬虫架构的典型设计

    爬虫架构的简单设计

    设计参考专利《一种分布式企业信息垂直搜索方法 》墙外

    相关文章

      网友评论

        本文标题:【爬虫】进阶修习系列 · 一

        本文链接:https://www.haomeiwen.com/subject/uwdthttx.html