美文网首页
2.5 翻页选择器Element click selector

2.5 翻页选择器Element click selector

作者: niujw | 来源:发表于2019-12-02 14:42 被阅读0次

我们抓取数据时,有时候碰到翻页的情况,插件对于翻页处理有2种方式

第一种规律分页:

翻页时会碰到url规律变化的情况
比如企查查中搜索框带科技的企业,抓取10页的企业名录
企查查科技企业
第1页:https://www.qichacha.com/search?key=科技#p:1&
第2页:https://www.qichacha.com/search?key=科技#p:2&
第3页:https://www.qichacha.com/search?key=科技#p:3&
第N页:https://www.qichacha.com/search?key=科技#p:n&
所以我们在创建sitemap url的时候在变量这里 我们写[1-N] 10页就是 [1-10]

取出1-10页的数据
然后增加text selector
selector选择
查看数据格式
数据格式
具体url要具体分析,下面给了一些示例
百度贴吧
http://tieba.baidu.com/f/index/forumpark?pcn=%E5%A8%B1%E4%B9%90%E6%98%8E%E6%98%9F&pci=0&ct=1&rn=20&pn=[1-n]
赶集网http://bj.ganji.com/zpshichangyingxiao/o[1-n]/
知乎某用户所有文章https://www.zhihu.com/org/jing-du-jun-8/posts?page=[1-n]
虎扑步行街https://bbs.hupu.com/bxj-[1-n]

如何进行翻页多字段抓取?

第二种:

一些网站翻页时url不会变,或者存在一些点击加载更多的情况
例如taptap手游排行榜
抓取该排行榜的游戏和名次

  • 首先创建 Element click selector


    image.png
    image.png
  • 然后创建子级selector 标题和排名
    标题


    image.png

    排名


    image.png
    保存selector
    查看抓取到的数据 150条数据全部抓取完毕了
    数据格式

父级Element click selector 是无法抓取到真实数据的,一定要 text selector或者 link selector 才能抓取到真实数据

总结

遇到分页需求分析链接地址
链接地址变化,创建sitemap时更换sitemap多页面链接一般表现形式为[1-n]
链接地址不变,使用Element click selector选择器 进行翻页数据获取

问题?
一些下滑到页面底部才加载内容的网站怎么爬取?

相关文章

网友评论

      本文标题:2.5 翻页选择器Element click selector

      本文链接:https://www.haomeiwen.com/subject/ddjowctx.html