webscraper是一款chrome的扩展插件,安装后会在开发者工具中找到。这款工具对于不懂python又想抓取数据做分析的人来说,是福星。
下载官网:https://www.webscraper.io/,已保存网盘,需要的同学留言。安装扩展过程不讲了,大家自行度娘。
~开始讲如何使用了。
一、安装好后在哪呢?
1、安装成功,在扩展程序里可以找到。

2、在需要爬取数据的页面,打开 开发者工具-》webscraper


二、开始爬数据
1、新建一个爬虫页面

比如我想把这个页面播放量最多、上榜时间的歌这些信息放一起做分析

2、创建组件项目建立关联关系
如下我想要爬这些数据,做这些之前,我们需要将整个模块做一个Element。为什么要这样做呢?

webscraper不会将这些子数据关联,所以需要先告诉它数据的层级关系。否则爬下来的数据会发现,每项数据都在单独的一行,并没有关联显示为一行。
第一步:创建type:Element,select:选择整个模块,Mulitipe勾选(这样webscraper才知道你要爬取同样规则的数据)

上面操作后需要注意以下截图中,按住SHIFT键选择2个以上模块,是为了告诉webscraper爬取同样规则的数据

第二步,创建好层级模块,点击进入
点击上一步中创建好的模块项,进入到该层级下创建具体的爬取参数。

第三步,创建具体爬取的数据项
首先确认已经进入到了第二层,再点击新增新的爬虫参数



第四步,建好后,确认一下爬虫层级
在如下图所示的“sitemap music”下,选择“selector graph”

第五步,正式爬取数据scrape

第六步,查看爬取的数据
爬虫爬完数据后会自动打开一个新标签后,爬取完后,再自动关闭。会显示以下界面,点击refresh,显示所有的数据


三、导出数据Export data as CSV
支持导出CSV文件,导出后可以excel别存为文本文件格式。
关于如何让爬虫自动分页,见文章:
网友评论