介绍大家一款超级灵活，友好并且超级实用的爬虫框架！得心应手！

作者: 919b0c54458f | 来源:发表于2018-06-16 15:37 被阅读4次

介绍大家一款超级灵活，友好并且超级实用的爬虫框架！得心应手！
拉丝不锈钢超级字：质感与刚硬并存
第九期之10款PDF在线转换工具
还在为照片模糊而烦恼吗？在我这都不是事
一款超级厉害的小游戏——≪超级对战≫
小编力荐：UZER.ME 云端超级运用空间
一种超好用又特简单的衣服收纳法，我卷、卷、卷…
有什么彩妆产品好用呢？国产粉瑟你值得拥有！！
海上霸主！GF厂百年灵超级海洋二代系列腕表鉴赏
秋天养颜银耳莲子羹

主要特点

框架代码结构简单易用，易于修改。例如针对出现验证码的处理方法。

采用gevent实现并发操作，与scrapy的twisted相比，代码更容易理解。

完全模块化的设计，强大的可扩展性。

使用方式和结构参考了 scrapy 和 webmagic 。对有接触过这两个框架的朋友非常友好。

对数据的解析模块并没有集成，可以自由使用 beautifulsoup 、 lxml 、 pyquery 、html5lib 等等各种解析器进行数据抽取。

集成代理换IP功能。

支持多线程。

支持分布式。

支持增量爬取。

支持爬取js动态渲染的页面。

提供webapi对爬虫进行管理、监控。

提供即时爬虫的集成思路和结构。

#!/usr/bin/env python# -*- coding: utf-8 -*-frombs4importBeautifulSoupasbsfromsasila.slow_system.base_processorimportBaseProcessorfromsasila.slow_system.downloader.http.spider_requestimportRequestfromsasila.slow_system.core.request_spiderimportRequestSpiderclassMzi_Processor(BaseProcessor):spider_id ='mzi_spider'spider_name ='mzi_spider'allowed_domains = ['mzitu.com'] start_requests = [Request(url='http://www.mzitu.com/', priority=0)] @checkResponsedefprocess(self, response):soup = bs(response.m_response.content,'lxml')printsoup.title.string href_list = soup.select('a')forhrefinhref_list:yieldRequest(url=response.nice_join(href['href']))

写法与scrapy几乎一样

所有的解析器都继承自 BaseProcessor ，默认入口解析函数为def process(self, response)。

为该解析器设置spider_id和spider_name,以及限定域名。

初始爬取请求为 start_requests ，构建Request对象，该对象支持GET、POST方法，支持优先级，设置回调函数等等所有构建request对象的一切属性。默认回调函数为 process 。

可以使用@checkResponse装饰器对返回的 response 进行校验并记录异常日志。你也可以定义自己的装饰器。

解析函数因为使用 yield 关键字，所以是一个生成器。当 yield 返回 Request 对象，则会将 Request 对象推入调度器等待调度继续进行爬取。若 yield 不是返回 Request 对象则会进入 pipeline ， pipeline 将对数据进行清洗入库等操作。