运营和新媒体人必会：不用代码，10分钟采集ASO数据

作者: 书生婉悠 | 来源:发表于2018-02-08 14:39 被阅读284次

很多做运营的朋友，经常需要爬取网上数据和资料作为分析的样本资料，例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据，通常需要花大量的时间重复复制和黏贴，这样费时费力，而且获取数据之后更重要的是分析得到想要的答案，把时间花在大量复制黏贴上有本末倒置的嫌疑。

由于很多运营本身工作繁忙，没有时间系统学习python编程语言以及复杂的火车头采集软件，于是就给大家推荐一款基于浏览器的采集插件web

scraper，我开设了一门专门的课程《不用代码，10分钟学会微博、知乎、豆瓣、58同城等网站数据采集》，里面有非常详细的知识介绍和实操案例。

Ok，今天就以采集ASO114网站为例，具体介绍这款插件在实际采集当中的运用。假设我要采集ASO114网是关于运营app的介绍以及下一页面的下载量数据，一个一个复制显然是不合理的，那么我们来看看web scraper是如何快速采集的。

需要注意的是，关于插件的安装和设置，在之前的课程都有相关说明，有兴趣的朋友可以去看看。

一、建立一级采集器，设定选择范围

1、进入采集页面https://aso114.com/a/%E8%BF%90%E8%90%A5/，通过快捷键：按【F12】键，选择【Web Scraper】启动插件；

2、新建站点地图：点击【Create new sitemap】→【Create Sitemap】，新建抓取任务。新建后如下图填写信息，填写完点击【CreateSitemap】创建：

3、设置一级采集器：具体如下如所示

有几个设置这里需要注意的是：

（1）type：这里选择的是element click，因为网页页面需要点击下方的加载更加，才能把全部信息展示出来；

（2）click type：这里选择的是click more，因为需要多次点击“加载更多”才能展示全部信息；

（3）click element uniqueness：这里选择的是unique HTML，因为当加载更多不能点击的时候会出现网页代码的改变，此时就让点击停止；

（4）勾选multiple，因为需要采集的是页面链接以及app名字等多种信息；

至此，一级选择器就设置完成了；

二、建立二级采集器，选取需要的信息元素

1、设置二级选择器：选择具体的元素，如下图：

具体操作也很简单，在一级选择器下新建二级选择器，就进入如上图页面，这里和之前的一级选择是一样的，但是具体设置略有不同：

（1）type：这里选择link，这是因为要选择的是对应的链接

（2）之后选择select，把鼠标移到需要选择的元素上，点击即可；

（3）其他就不用设置了，也不需要勾选multiple。

设置和选择完毕之后，点击save selector即可。同理其他的app名字的设置也是一样的，只需要把二级选择器的type类型设置为text即可。

2、实现二级页面的采集。

这里的二级页面指的是在上一页面点击后进入的页面，因此需要的是先采集上一页面的链接，这一步第三步和第四步已经采集完成，那么我们需要采集的页面具体指的是：

那么如何批量采集下载量这个维度呢？其实也特别简单，只需要在链接下新建立一个三级选择器，在第三级选择器中把type类型设置为text即可：

设置地图为：

设置完成后，选择scrap即可，得到的结果：

所有500多条信息，在不到10分钟的时间即可采集完成。

如果您想掌握这种采集方法，我开设了一门《不用代码，10分钟学会微博、豆瓣、知乎、淘宝数据采集》，用视频教学来让你快速学会数据采集，详情可以看我简书主页信息。

相关文章