实现通用爬虫

作者: 小袋鼠cf | 来源:发表于2019-01-04 16:44 被阅读0次

创建爬虫文件的方式
scrapy genspider -t crawl 爬虫文件名域

爬虫文件继承的类CrawlSpider

rules:里面存放的是rule的对像（元组或者列表）

Rule:自定义提取规则，提取到的url，回自动构建request对像，
设置回调函数解析相应结果，设置是否需要跟进（进一步提取url连接）
process_links：拦截rule规则提取的url，返回的是一个列表，列表存放的是link对象

LinkExtractor：是一个对象，设置提取url的规则

注意：rules中如果没有设置callback回调，follow默认为true
注意：一定不要去实现parse方法
注意：要想处理起始url的相应结果，需要重写parse_start_url方法

什么时候适合使用crawlspider?
一般网页结构比较简单，页面大多是静态页面

网友评论

本文标题：实现通用爬虫

本文链接：https://www.haomeiwen.com/subject/tldkrqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！