美文网首页关于搜索,我们聊聊python爬虫
【爬虫】进阶修习系列 · 一

【爬虫】进阶修习系列 · 一

作者: 荒剑离 | 来源:发表于2015-10-22 14:49 被阅读449次

本文会涉及以下内容:【不定时修改中。。。】

1. pyspider的介绍;

2. 爬虫架构的典型设计;

3. 垂直搜索引擎的初探。

PySpider

之前的爬虫策略很简单,用得python2.7:urllib2 + BeautifulSoup。

这种方式小巧方便,但是面对大规模的爬取需求时就变得冗余麻烦,需要有一个爬虫框架,能够分布式运行,队列控制。

可以简单的认为目前的需求就是一个垂直领域的爬虫框架,对数量可观的网站中的某些确定页面进行周期性的爬取,需要爬取策略定制方便可调整,暂时不需要实时响应。

爬虫框架之前试过scrapy,但是种种原因使用并不成功,于是来了解下pyspider。

特性:

1) web可视化监控;

2) 队列调度与周期控制;

3) 支持JS页面抓取。

4) 。。。pyspider介绍

设计架构:

pyspider架构

pyspider架构设计

简单的面见了pyspider,那么如何使用:

pyspider 爬虫教程(一):HTML 和 CSS 选择器

pyspider 爬虫教程(二):AJAX 和 HTTP

pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面

以上所有pyspider的介绍链接均来自开发者的博客,项目已开源GitHub

垂直搜索引擎

这是针对某一行业或领域的专业搜索引擎,是对网页库中某类专门信息的一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出的搜索引擎服务模式,通过针对某一特定领域、人群或需求提供有一定价值的信息和相关服务。特点是“专、精、深”,具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎显得更专注、具体和深入。

爬虫架构的典型设计

爬虫架构的简单设计

设计参考专利《一种分布式企业信息垂直搜索方法 》墙外

相关文章

网友评论

    本文标题:【爬虫】进阶修习系列 · 一

    本文链接:https://www.haomeiwen.com/subject/uwdthttx.html