**一、操作步骤。京东的列表网页有很多页,爬虫能不能自动翻页,采集每一页的数据?当然可以,做好翻页采集规则,爬虫就能自动翻页采数据。下面以京东列表页作为案例,操作步骤下:


二、案例规则+操作步骤
- 样本网址:<u style="word-wrap: break-word;">https://search.jd.com/Search?keyword=%E7%89%9B%E4%BB%94%E8%A3%A4&enc=utf-8&wq=%E7%89%9B%E4%BB%94ku&pvid=8b028fa5b6a841aa8bc3b6e2af1ed822</u>
- 采集内容:商品名称、价格、评论数、商品详情页链接等内容,并自动翻页采集。
本案例是在上一篇文章《采集列表数据》的基础上,直接增加翻页设置,所以,前三步操作就不重复讲了,下面就直接讲第四步操作。
第四步:设置翻页
包括两个步骤:1. 设置翻页区 2. 设置翻页记号
4.1,设置翻页区
在当前页面,点击翻页区,发现整个翻页区变黄了,而且,在下面的DOM窗口,光标自动定位到了SPAN节点,右击这个节点,选中翻页映射→作为翻页区→新建线索。

4.2,设置翻页记号
此时,工作台自动切换到了爬虫路线。不用理会。继续在当前网页,点击翻页按钮“下一页”。在下面的DOM区,光标自动定位到了A节点,点开A节点,寻找text节点,找到后,右击这个text节点,选中翻页映射→作为翻页记号。

第五步:存规则,抓数据
5.1,点击G浏览器上的“存规则“按钮,保存规则。点击浏览器上的“爬数据“按钮,或者到打数机,启动采集,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件,
如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
网友评论