Web Scraper用途
日常学习工作中,我们多多少少都会遇到一些临时的数据爬取需求,比如说运营活动时收集用户评价,竞品分析时收集友商数据。
当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被并不简单的学习教程所劝退。但是今天我要推荐的是 Web Scraper,一个轻量的数据爬虫工具。
Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只要熟悉基本操作,一小时内就能掌握使用方法,几分钟就可以制作一些日常的爬虫。
安装方法及更多介绍
案例----爬取taptap热门榜
1.创建爬虫任务
安装完web scraper后,我们先打开谷歌浏览器,访问网址https://www.taptap.com/top/download。
按下F12,点选Web Scraper,下拉Create new sitemap并点击Create Sitemap
设置名称和爬取网址
2.制作数据框的集合
我们查看taptap热门榜,发现该网站形式类似刷微博,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远没有尽头。经查看,taptap热门榜是展示150条。
点击Add new selector。
接下来我们通过Select按钮多选,包裹要爬取得所有数据框,每一个数据框应该对应csv的一条数据。
保证点选Selector里的Element preview按钮实现这样的效果。
3.数据框里的字段选择
这边我们选择序号,名称,分值,图片地址4个字段进行爬取
[图片上传失败...(image-636c70-1625305160878)]
通过以上截图,可以发现2个关键点:
1.Parent Selectors 选择我们刚做好的container
2.不用点选Multiple
4.执行爬虫任务并获取数据
点击Scrape按钮,即可执行爬取任务,待爬取完毕。
点击Browse按钮,查看刚爬取的数据。
点击Export Sitemap按钮,获取制作好的脚本代码,可复制给别的小伙伴用。
神秘代码:
{"_id":"taptap","startUrl":["https://www.taptap.com/top/download"],"selectors":[{"id":"hot_index","type":"SelectorText","parentSelectors":["container"],"selector":"div.game-card__index","multiple":false,"regex":"","delay":0},{"id":"name","type":"SelectorText","parentSelectors":["container"],"selector":"p.tap-app-title__name","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["container"],"selector":"div.app-rating__number","multiple":false,"regex":"","delay":0},{"id":"container","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.game-card","multiple":true,"delay":2000},{"id":"image","type":"SelectorImage","parentSelectors":["container"],"selector":".app-icon img[src]","multiple":false,"delay":0}]}
点击Export data as CSV按钮,点击Download now!即可下载数据至csv。
Web Scraper 的优点
-
轻量:非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。对于一些限制安装第三方软件的公司电脑,可以很轻易的突破这层限制
-
提效:Web Scraper 支持绝大多数的网页的爬取,可以无侵入的加入你的日常工作流中
-
快:抓取速度取决于你的网速与浏览器加载速度,其他的数据采集软件可能有限速现象(充钱就能不限速)
Web Scraper 的缺点
-
只支持文本数据抓取:图片短视频等多媒体数据无法批量抓取
-
不支持范围抓取:例如一个网页有 1000 条数据,默认是全量抓取的,无法配置抓取范围。想停止抓取,只能断网模拟数据加载完毕的情况
-
不支持复杂网页抓取:对于那些加了复杂交互、酷炫的特效和反人类的反爬虫网页,Web Scraper 无能为力(其实这种网页写 python 爬虫也挺头疼)
-
导出数据乱序:想让数据正序就得用 Excel 或者用 CouchDB,相对复杂了一些
网友评论