【爬虫】进阶修习系列 · 一

作者: 荒剑离 | 来源:发表于2015-10-22 14:49 被阅读449次

【爬虫】进阶修习系列 · 一
Python爬虫进阶-curl的使用
Python爬虫进阶-前言
Python爬虫五大零基础入门教程
看云文档
Python爬虫入门到入职01：开发环境搭建
爬小说谁的青春不迷茫
手把手教你进行pip换源，让你的Python库下载嗖嗖的
爬虫入门系列（六）：正则表达式完全指南（下）
资料

本文会涉及以下内容：【不定时修改中。。。】

1. pyspider的介绍；

2. 爬虫架构的典型设计；

3. 垂直搜索引擎的初探。

PySpider

之前的爬虫策略很简单，用得python2.7：urllib2 + BeautifulSoup。

这种方式小巧方便，但是面对大规模的爬取需求时就变得冗余麻烦，需要有一个爬虫框架，能够分布式运行，队列控制。

可以简单的认为目前的需求就是一个垂直领域的爬虫框架，对数量可观的网站中的某些确定页面进行周期性的爬取，需要爬取策略定制方便可调整，暂时不需要实时响应。

爬虫框架之前试过scrapy，但是种种原因使用并不成功，于是来了解下pyspider。

特性：

1) web可视化监控；

2) 队列调度与周期控制；

3) 支持JS页面抓取。

4) 。。。pyspider介绍

设计架构：

pyspider架构

pyspider架构设计

简单的面见了pyspider，那么如何使用：

pyspider 爬虫教程（一）：HTML 和 CSS 选择器

pyspider 爬虫教程（二）：AJAX 和 HTTP

pyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

以上所有pyspider的介绍链接均来自开发者的博客，项目已开源GitHub。

垂直搜索引擎

这是针对某一行业或领域的专业搜索引擎，是对网页库中某类专门信息的一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出的搜索引擎服务模式，通过针对某一特定领域、人群或需求提供有一定价值的信息和相关服务。特点是“专、精、深”，具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎显得更专注、具体和深入。

爬虫架构的典型设计

爬虫架构的简单设计

设计参考专利《一种分布式企业信息垂直搜索方法》墙外

网友评论

本文标题：【爬虫】进阶修习系列 · 一

本文链接：https://www.haomeiwen.com/subject/uwdthttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【爬虫】进阶修习系列 · 一

PySpider

垂直搜索引擎

爬虫架构的典型设计

相关文章