Scrapy 框架中的CrawlSpider爬虫的使用（二十一）

Scrapy 框架中的CrawlSpider爬虫的使用（二十一）

作者: 梦捷者 | 来源:发表于2019-08-01 22:24 被阅读0次

分布式爬虫笔记（一）- 非框架实现的Crawlspider
CrawlSpider介绍
Scrapy框架——CrawlSpider类爬虫案例
Scrapy扩展
Scrapy 框架中的CrawlSpider爬虫的使用（二十一）
39.scrapy的crawlspider爬虫
聚焦Python分布式爬虫必学框架 Scrapy 打造搜索引擎
(八)Scrapy框架(三) ？python+scrapy爬虫5
Scrapy爬虫框架之CrawlSpider爬虫
python爬虫框架scrapy

一、创建CrawlSpider父类的爬虫

注意：运用CrawlSpider父类来进行爬虫的时候不要写parse(self,response)方法，因为CrawlSpider爬虫实现自动链接的这个功能（通过链接提取器 LinkExtractor来进行相应的操作）就是通过parse方法进行的，千万不要覆盖父类的parse(self,response)方法（即不要自定义parse(self,response)来进行操作）。
命令：scrapy genspider -t crawl hr.tencent hr.tencent.com（url）
url 就是你想要爬取的网址。
注意：分析本地文件是一定要带上路径（scrapy shell默认为本地路径），scrapy shell调试的时候可以加访问的url或者不加。

二、继承CrawlSpider父类中的Rule方法

Rule用来定义CrawlSpider的爬取规则(是rules元组的元素)
参数：
（1）link_extractor：LinkExtractor对象，它定义如何从每个已爬网页面中提取链接（解析链接）。
（2）callback：回调函数（每条规则解析链接地址后调用的函数）。
（3）cb_kwargs ：是一个包含要传递给回调函数的关键字参数（是dict形式）。
（4）follow：它指定是否应该从使用此规则提取的每个响应中跟踪链接（继续寻找链接）。
（5）process_links ：用于过滤从LinkExtractor对象里面解析出来的链接的回调函数。
（6）process_request：用于过滤请求的回调函数。

三、Rule属性中的LinkExtractor方法

LinkExtractor方法中必须要有allow参数，匹配符合规则的地址。

LinkExractor也是scrapy框架定义的一个类。
LinkExractor唯一的目的是从web页面中提取最终将被跟踪的链接。
我们也可定义我们自己的链接提取器，只需要提供一个名为extract_links的方法，它接收Response对象。并返回scrapy.link.Link对象列表。（不需要yiled，只需要解析链接地址即可，from scrapy.link import Link的列表）。
LinkExtractor类中的deny=()参数的意思是不允许什么链接地址进行爬取，在LinkExtractor类中必须要有allow=()参数，如果两个参数同时出现的话，如果链接地址都符合则deny参数的优先级高。
LinkExtractor类中的deny_domains=()是不允许爬取的域名。
LinkExtractor类中的restrict_xpaths=()进行路径的限定进行爬取（一个地址链接或者一个区域的链接地址的限定）。
LinkExtractor类中unique=True代表过滤相同的链接地址。

相关文章

分布式爬虫笔记（一）- 非框架实现的Crawlspider
不久前写过一篇使用Scrapy框架写的Crawlspider爬虫笔记（五）- 关于Scrapy 全站遍历Crawl...
CrawlSpider介绍
1.CrawlSpider介绍 Scrapy框架中分两类爬虫 Spider类和CrawlSpider类。 craw...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。此案例采用的是CrawlSpider类实现...
Scrapy扩展
Scrapy CrawlSpider了解 scrapy通用爬虫 CrawlSpider它是Spider的派生类，S...
Scrapy 框架中的CrawlSpider爬虫的使用（二十一）
一、创建CrawlSpider父类的爬虫注意：运用CrawlSpider父类来进行爬虫的时候不要写parse(...
39.scrapy的crawlspider爬虫
scrapy的crawlspider爬虫学习目标：了解 crawlspider的作用应用 crawlspid...
聚焦Python分布式爬虫必学框架 Scrapy 打造搜索引擎
通过 CrawlSpider 创建爬虫在项目目录中，通过命令 scrapy genspider --list 查...
(八)Scrapy框架(三) ？python+scrapy爬虫5
Scrapy框架(三) CrawlSpider 创建CrawlSpider 案例实践 piplines文件 Cra...
Scrapy爬虫框架之CrawlSpider爬虫
CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url，然后重新发送...
python爬虫框架scrapy
爬虫框架Scrapy(四) 使用框架Scrapy开发一个爬虫只需要四步：创建项目：scrapy startproj...

网友评论

本文标题：Scrapy 框架中的CrawlSpider爬虫的使用（二十一）

本文链接：https://www.haomeiwen.com/subject/hklhdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy 框架中的CrawlSpider爬虫的使用（二十一）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！