CrawlSpider获取微信小程序教程内容并且实现分页功能

作者: 幼姿沫 | 来源:发表于2020-12-18 16:43 被阅读0次

CrawlSpider获取微信小程序教程内容并且实现分页功能
181211|如何使用 Node 实现小程序获取用户手机号的功能
微信小程序群功能开发-后端篇
小程序商城开发有什么需求功能？
微信小程序码获取-从频繁失败到成功率100%
微信小程序整理
微信小程序____获取定位信息
服务端使用 nodejs 获取带参微信小程序码图片
微信小程序码获取-从频繁失败到成功率100%
微信小程序验证码倒计时60秒提醒功能实现

crawlSpider是根据链接提取器来获取具体页面数据

在普通的scrapy爬虫中，parse函数提前完当前页面数据之后

获取下一页数据调用parse解析函数，重新进行发送请求

crawlSpider实际上可以理解为：链接提取器从链接中能够获取具体数据

crawlSpider则是通过正则表达式进行匹配只要是满足某个等待的url都会对具体数据进行爬取

增加了可以爬取数据的新的规则只要是满足该规则就会对数据进行提取，就是替代了scrapy.Request

创建爬虫项目 python -m scrapy startproject project_name

创建crawl爬虫 python -m scrapy genspider spider_name url

运行crawl爬虫 python -m scrapy crawl spider_name

LinkExtractor 链接提取器通过链接来或许相应的页面数据

参数有：allow允许的url 只要是满足该正则表达式的url地址即可允许访问和提取数据

deny禁止的url 所有满足该正则表达式的url地址则不会被提取

allow_domain 允许的域名只有在这里面指定的域名url才会被提取

deny_domain 禁止的域名所有在里面指定的域名不会被提取

restrict_xpath 严格的xpath 和allow共同过滤链接具体查找某一个模块中的链接

Rule 在网页中提取的规则

参数有：link_extractor一个link对象用来定义爬取规则也就是网页链接

callback 定义的是爬取的网页用哪个爬虫提取器的函数调用

follow 指定该规则从response中提取的连接是否需要跟进

process_links 从连接提取器过来的链接传给process_links，用来过滤不需要爬取的链接