Python学习笔记(2)采集网页数据

作者: 2890bd62c72a | 来源:发表于2019-08-13 21:20 被阅读5次

Python学习笔记(2)采集网页数据
数据埋点方案简述
Python简单爬取网页图片
Python网络数据采集之图像识别与文字处理
Python爬虫学习笔记——1.环境搭建
2018最佳人工智能数据采集(爬虫)工具书下载
Python学习笔记(12) 采集网页html源码
第一章走进python
快速创建一个网页_Django学习笔记（三）-python3
Python网络数据采集

一、操作步骤

下面用京东网站作为案例，给大家演示如何使用直观标注的功能采集网页数据，操作步骤如下：

二、案例规则+操作步骤

样本网址：https://search.jd.com/Search?keyword=%E5%86%B0%E7%AE%B1&enc=utf-8&wq=%E5%86%B0%E7%AE%B1&pvid=2879721c10d54340a16491de943d6886
采集内容：商品名称、价格、评论数、店铺名称

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

1.2，在工作台中输入主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

Tips：为了能准确定位网页信息，点击“定义规则”会把整个网页定格住，不能跳转网页链接，点击“普通浏览”，才会恢复到普通的网页浏览模式。

第二步：标注需要采集的信息

2.1，标注是针对网页的文本信息来操作的，双击目标信息就会选中它，在弹出小窗中输入标签名，打勾确认或Enter。首次标注还要输入整理箱名称，即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步操作来标注地址、电话信息。

image

第三步：存规则，抓数据

3.1，点击“测试”，检查信息完整性。不完整的话，对整理箱的标签右击删掉后，再重新标注即可。

3.2，点击“存规则”。

3.3，点击“爬数据”，弹出DS打数机开始采集数据，测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外，还有其他运行方式。

第四步：查看数据

4.1，采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中

如果你依然在编程的世界里迷茫，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！交流经验！自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，点击加入我们的 python学习者聚集地