Python学习笔记(4)翻页采集列表

作者: 2890bd62c72a | 来源:发表于2019-08-13 21:21 被阅读4次

Python学习笔记(4)翻页采集列表
Python学习笔记(3)采集列表数据
Python学习笔记4——列表
ROS-wifi及以太网通信
Django 学习笔记 - 文章列表翻页
易发BUG(checklist)
【慕课网】Python入门笔记「4」基本数据类型
Effective Python 学习笔记 2
前嗅ForeSpider采集教程：采集安居客列表数据
小爬虫之腾讯招聘网自动翻页采集

**一、操作步骤。京东的列表网页有很多页，爬虫能不能自动翻页，采集每一页的数据?当然可以，做好翻页采集规则，爬虫就能自动翻页采数据。下面以京东列表页作为案例，操作步骤下：

二、案例规则+操作步骤

样本网址：<u style="word-wrap: break-word;">https://search.jd.com/Search?keyword=%E7%89%9B%E4%BB%94%E8%A3%A4&enc=utf-8&wq=%E7%89%9B%E4%BB%94ku&pvid=8b028fa5b6a841aa8bc3b6e2af1ed822</u>
采集内容：商品名称、价格、评论数、商品详情页链接等内容，并自动翻页采集。

本案例是在上一篇文章《采集列表数据》的基础上，直接增加翻页设置，所以，前三步操作就不重复讲了，下面就直接讲第四步操作。

第四步：设置翻页

包括两个步骤：1. 设置翻页区 2. 设置翻页记号

4.1，设置翻页区

在当前页面，点击翻页区，发现整个翻页区变黄了，而且，在下面的DOM窗口，光标自动定位到了SPAN节点，右击这个节点，选中翻页映射→作为翻页区→新建线索。

4.2，设置翻页记号

此时，工作台自动切换到了爬虫路线。不用理会。继续在当前网页，点击翻页按钮“下一页”。在下面的DOM区，光标自动定位到了A节点，点开A节点，寻找text节点，找到后，右击这个text节点，选中翻页映射→作为翻页记号。

第五步：存规则，抓数据

5.1，点击G浏览器上的“存规则“按钮，保存规则。点击浏览器上的“爬数据“按钮，或者到打数机，启动采集，在DS打数机里看翻页是否成功，翻页采集成功的话，在本地DataScraperWorks文件夹中会生成多个xml文件，

如果你依然在编程的世界里迷茫，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！交流经验！自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，点击加入我们的 python学习者聚集地

网友评论

本文标题：Python学习笔记(4)翻页采集列表

本文链接：https://www.haomeiwen.com/subject/nirkjctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python学习笔记(4)翻页采集列表

相关文章