美文网首页
RuiJi Scraper 分页抽取

RuiJi Scraper 分页抽取

作者: 朱平齐 | 来源:发表于2018-12-03 15:59 被阅读0次

    如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示

    请注意以下分页选择器的配置要求

    1.  分页选择器的默认名称为_paging,请不要修该名称

    2. 分页选择器要求选择出的结果为链接地址

    下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置

    首先观察下分页的形式,具有数字分页链接及上一页下一页的链接

    我们需要提取出所有的地址,并排除掉上一页及下一页的超链接

    最终的分页抽取器配置如下

    如上选择器的解释为

    1. 选择#page 元素的外部html源码

    2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)

    3. 选择a标签的href属性的值作为输出结果

    相关文章

      网友评论

          本文标题:RuiJi Scraper 分页抽取

          本文链接:https://www.haomeiwen.com/subject/ukgycqtx.html