美文网首页
RuiJi Scraper 分页抽取

RuiJi Scraper 分页抽取

作者: 朱平齐 | 来源:发表于2018-12-03 15:59 被阅读0次

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示

请注意以下分页选择器的配置要求

1.  分页选择器的默认名称为_paging,请不要修该名称

2. 分页选择器要求选择出的结果为链接地址

下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置

首先观察下分页的形式,具有数字分页链接及上一页下一页的链接

我们需要提取出所有的地址,并排除掉上一页及下一页的超链接

最终的分页抽取器配置如下

如上选择器的解释为

1. 选择#page 元素的外部html源码

2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)

3. 选择a标签的href属性的值作为输出结果

相关文章

网友评论

      本文标题:RuiJi Scraper 分页抽取

      本文链接:https://www.haomeiwen.com/subject/ukgycqtx.html