Python学习笔记(2)采集网页数据

作者: 2890bd62c72a | 来源:发表于2019-08-13 21:20 被阅读5次

    一、操作步骤

    下面用京东网站作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下:

    二、案例规则+操作步骤

    第一步:打开网页

    1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

    1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

    Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,点击“普通浏览”,才会恢复到普通的网页浏览模式。

    第二步:标注需要采集的信息

    2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。

    2.2,重复上一步操作来标注地址、电话信息。

    image

    第三步:存规则,抓数据

    3.1,点击“测试”,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。

    3.2,点击“存规则”。

    3.3,点击“爬数据”,弹出DS打数机开始采集数据,测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外,还有其他运行方式。

    第四步:查看数据

    4.1,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中

    如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

    相关文章

      网友评论

        本文标题:Python学习笔记(2)采集网页数据

        本文链接:https://www.haomeiwen.com/subject/rcrkjctx.html