最近得空把之前的一些案例稍微整理一下,之前做的案例有:
案例1:汽车之家网站奔驰宝马宝马信息采集
案例2:天涯论坛各个板块文章信息采集
案例3:豆瓣电影、读书板块信息数据和评论数据采集
案例4:淘宝茶叶数据采集、竹浆纸数据采集、充电宝数据采集
案例5:京东小米手机数据采集、京东众筹商品数采集
案例6:大众点评泉州美食数据采集、58同城泉州租房信息数据采集
案例7:咪蒙、韩寒、郭敬明微博粉丝及评论采集
案例8:舌尖上的泉州、李叫兽、咪蒙等20个公众号文章、阅读数据采集
之前在简书上对部分内容做了分析,有兴趣都可以去看看简书的文章:
案例1:咪蒙文章特点分析-为什么咪蒙文章那么受欢迎
案例2:京东商城加湿器产品销售分析
案例3:京东众筹成功影响因素分析
案例4:泉州美食、租房情况分析
案例5:淘宝面膜产品分析
案例6:铁观音茶叶市场前景和竞争分析
那么今天就介绍一下如何不用代码,10分钟采集58同城上二手车数据,我们需要的数据包括车型、使用时间、油量、使用里程、价格等维度信息
第一步:创建采集任务
创建采集任务,将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
第二步:提取需要的信息
1、选择需要的采集范围,让需要的信息呈现蓝色,点击鼠标即可选中
2、点击鼠标后,在弹出来的对话框选择“创建一组元素”即可
3、经过2次的范围选择之后,点击创建列表完成,就得到了需要的信息范围,得到如下图:
4、点击循环,即可获得页面的全部信息
第三步:提取目标信息
1、将鼠标移到标题上,待选择的标题变成蓝色后,点击鼠标,得到如下图对话框,选择“抓取这个元素的文本”
2、此时需要的信息出现在右侧的信息框中,如果需要对字段名称修改,点击即可修改。
3、对于需要的其他信息也是按照类似的方法获取,最终:
第四步:设置翻页和AJAX设置
1、将鼠标移到页面底端的翻页处,把鼠标放在“下一页”上,变成蓝色后,即可点击选中:
2、在弹出的对话框中选择“循环点击下一页”即可建立好翻页,可以将后面几页的信息自动选中。
3、然后鼠标选中左边规则中的“点击翻页”,在左边的高级选项中点开下拉页面,在“AJax加载”一项中勾选AJax加载数据,超时2秒。
注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:
1.点击网页中某个选项时,大部分网站的网址不会改变;
2.网页不是完全加载,只是局部进行了数据加载,有所变化
第五步:数据采集及导出
1、Ajax设置完成之后,再重新启动本地采集
2、采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图
网友评论