很多做运营的朋友,经常需要爬取网上数据和资料作为分析的样本资料,例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据,通常需要花大量的时间重复复制和黏贴,这样费时费力,而且获取数据之后更重要的是分析得到想要的答案,把时间花在大量复制黏贴上有本末倒置的嫌疑。
由于很多运营本身工作繁忙,没有时间系统学习python编程语言以及复杂的火车头采集软件,于是就给大家推荐一款基于浏览器的采集插件web
scraper,我开设了一门专门的课程《不用代码,10分钟学会微博、知乎、豆瓣、58同城等网站数据采集》,里面有非常详细的知识介绍和实操案例。
Ok,今天就以采集ASO114网站为例,具体介绍这款插件在实际采集当中的运用。假设我要采集ASO114网是关于运营app的介绍以及下一页面的下载量数据,一个一个复制显然是不合理的,那么我们来看看web scraper是如何快速采集的。
需要注意的是,关于插件的安装和设置,在之前的课程都有相关说明,有兴趣的朋友可以去看看。
一、建立一级采集器,设定选择范围
1、进入采集页面https://aso114.com/a/%E8%BF%90%E8%90%A5/,通过快捷键:按【F12】键,选择【Web Scraper】启动插件;
2、新建站点地图:点击【Create new sitemap】→【Create Sitemap】,新建抓取任务。新建后如下图填写信息,填写完点击【CreateSitemap】创建:
3、设置一级采集器:具体如下如所示
有几个设置这里需要注意的是:
(1)type:这里选择的是element click,因为网页页面需要点击下方的加载更加,才能把全部信息展示出来;
(2)click type:这里选择的是click more,因为需要多次点击“加载更多”才能展示全部信息;
(3)click element uniqueness:这里选择的是unique HTML,因为当加载更多不能点击的时候会出现网页代码的改变,此时就让点击停止;
(4)勾选multiple,因为需要采集的是页面链接以及app名字等多种信息;
至此,一级选择器就设置完成了;
二、建立二级采集器,选取需要的信息元素
1、设置二级选择器:选择具体的元素,如下图:
具体操作也很简单,在一级选择器下新建二级选择器,就进入如上图页面,这里和之前的一级选择是一样的,但是具体设置略有不同:
(1)type:这里选择link,这是因为要选择的是对应的链接
(2)之后选择select,把鼠标移到需要选择的元素上,点击即可;
(3)其他就不用设置了,也不需要勾选multiple。
设置和选择完毕之后,点击save selector即可。同理其他的app名字的设置也是一样的,只需要把二级选择器的type类型设置为text即可。
2、实现二级页面的采集。
这里的二级页面指的是在上一页面点击后进入的页面,因此需要的是先采集上一页面的链接,这一步第三步和第四步已经采集完成,那么我们需要采集的页面具体指的是:
那么如何批量采集下载量这个维度呢?其实也特别简单,只需要在链接下新建立一个三级选择器,在第三级选择器中把type类型设置为text即可:
设置地图为:
设置完成后,选择scrap即可,得到的结果:
所有500多条信息,在不到10分钟的时间即可采集完成。
如果您想掌握这种采集方法,我开设了一门《不用代码,10分钟学会微博、豆瓣、知乎、淘宝数据采集》,用视频教学来让你快速学会数据采集,详情可以看我简书主页信息。
网友评论