美文网首页数据采集数据分析首页投稿(暂停使用,暂停投稿)运营
运营和新媒体人必会:不用代码,10分钟采集ASO数据

运营和新媒体人必会:不用代码,10分钟采集ASO数据

作者: 书生婉悠 | 来源:发表于2018-02-08 14:39 被阅读284次

    很多做运营的朋友,经常需要爬取网上数据和资料作为分析的样本资料,例如需要获取ASO114网站上关于学习app的权重、下载量等相关数据,通常需要花大量的时间重复复制和黏贴,这样费时费力,而且获取数据之后更重要的是分析得到想要的答案,把时间花在大量复制黏贴上有本末倒置的嫌疑。

    由于很多运营本身工作繁忙,没有时间系统学习python编程语言以及复杂的火车头采集软件,于是就给大家推荐一款基于浏览器的采集插件web

    scraper,我开设了一门专门的课程《不用代码,10分钟学会微博、知乎、豆瓣、58同城等网站数据采集》,里面有非常详细的知识介绍和实操案例。

    Ok,今天就以采集ASO114网站为例,具体介绍这款插件在实际采集当中的运用。假设我要采集ASO114网是关于运营app的介绍以及下一页面的下载量数据,一个一个复制显然是不合理的,那么我们来看看web scraper是如何快速采集的。

    需要注意的是,关于插件的安装和设置,在之前的课程都有相关说明,有兴趣的朋友可以去看看。

    一、建立一级采集器,设定选择范围

    1、进入采集页面https://aso114.com/a/%E8%BF%90%E8%90%A5/,通过快捷键:按【F12】键,选择【Web Scraper】启动插件;

    2、新建站点地图:点击【Create new sitemap】→【Create Sitemap】,新建抓取任务。新建后如下图填写信息,填写完点击【CreateSitemap】创建:

    3、设置一级采集器:具体如下如所示

    有几个设置这里需要注意的是:

    (1)type:这里选择的是element click,因为网页页面需要点击下方的加载更加,才能把全部信息展示出来;

    (2)click type:这里选择的是click more,因为需要多次点击“加载更多”才能展示全部信息;

    (3)click element uniqueness:这里选择的是unique HTML,因为当加载更多不能点击的时候会出现网页代码的改变,此时就让点击停止;

    (4)勾选multiple,因为需要采集的是页面链接以及app名字等多种信息;

    至此,一级选择器就设置完成了;

    二、建立二级采集器,选取需要的信息元素

    1、设置二级选择器:选择具体的元素,如下图:

    具体操作也很简单,在一级选择器下新建二级选择器,就进入如上图页面,这里和之前的一级选择是一样的,但是具体设置略有不同:

    (1)type:这里选择link,这是因为要选择的是对应的链接

    (2)之后选择select,把鼠标移到需要选择的元素上,点击即可;

    (3)其他就不用设置了,也不需要勾选multiple。

    设置和选择完毕之后,点击save selector即可。同理其他的app名字的设置也是一样的,只需要把二级选择器的type类型设置为text即可。

    2、实现二级页面的采集。

    这里的二级页面指的是在上一页面点击后进入的页面,因此需要的是先采集上一页面的链接,这一步第三步和第四步已经采集完成,那么我们需要采集的页面具体指的是:

    那么如何批量采集下载量这个维度呢?其实也特别简单,只需要在链接下新建立一个三级选择器,在第三级选择器中把type类型设置为text即可:

    设置地图为:

    设置完成后,选择scrap即可,得到的结果:

    所有500多条信息,在不到10分钟的时间即可采集完成。

    如果您想掌握这种采集方法,我开设了一门《不用代码,10分钟学会微博、豆瓣、知乎、淘宝数据采集》,用视频教学来让你快速学会数据采集,详情可以看我简书主页信息。

    相关文章

      网友评论

        本文标题:运营和新媒体人必会:不用代码,10分钟采集ASO数据

        本文链接:https://www.haomeiwen.com/subject/vvjttftx.html