如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示
请注意以下分页选择器的配置要求
1. 分页选择器的默认名称为_paging,请不要修该名称
2. 分页选择器要求选择出的结果为链接地址
下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置
首先观察下分页的形式,具有数字分页链接及上一页下一页的链接
我们需要提取出所有的地址,并排除掉上一页及下一页的超链接
最终的分页抽取器配置如下
如上选择器的解释为
1. 选择#page 元素的外部html源码
2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)
3. 选择a标签的href属性的值作为输出结果
网友评论