Chrome浏览器爬虫工具Web Scraper

作者: 修行的修行 | 来源:发表于2021-07-03 17:39 被阅读0次

Web Scraper用途

日常学习工作中，我们多多少少都会遇到一些临时的数据爬取需求，比如说运营活动时收集用户评价，竞品分析时收集友商数据。

当我们着手准备收集数据时，面对低效的复制黏贴工作，一般都会萌生一个想法：我要是会爬虫就好了，分分钟就把数据爬取下来了。可是当我们搜索相关教程时，往往会被并不简单的学习教程所劝退。但是今天我要推荐的是 Web Scraper，一个轻量的数据爬虫工具。

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只要熟悉基本操作，一小时内就能掌握使用方法，几分钟就可以制作一些日常的爬虫。

安装方法及更多介绍

https://sspai.com/post/55390

案例----爬取taptap热门榜

1.创建爬虫任务

安装完web scraper后，我们先打开谷歌浏览器，访问网址https://www.taptap.com/top/download。

按下F12，点选Web Scraper，下拉Create new sitemap并点击Create Sitemap

设置名称和爬取网址

2.制作数据框的集合

我们查看taptap热门榜，发现该网站形式类似刷微博，当把内容拉到屏幕末尾的时候，APP 就会自动加载下一页的数据，从体验上来看，数据会源源不断的加载出来，永远没有尽头。经查看，taptap热门榜是展示150条。

点击Add new selector。

接下来我们通过Select按钮多选，包裹要爬取得所有数据框，每一个数据框应该对应csv的一条数据。

保证点选Selector里的Element preview按钮实现这样的效果。

3.数据框里的字段选择

这边我们选择序号，名称，分值，图片地址4个字段进行爬取

[图片上传失败...(image-636c70-1625305160878)]

通过以上截图，可以发现2个关键点：

1.Parent Selectors 选择我们刚做好的container

2.不用点选Multiple

4.执行爬虫任务并获取数据

点击Scrape按钮，即可执行爬取任务，待爬取完毕。

点击Browse按钮，查看刚爬取的数据。

点击Export Sitemap按钮，获取制作好的脚本代码，可复制给别的小伙伴用。

神秘代码：

{"_id":"taptap","startUrl":["https://www.taptap.com/top/download"],"selectors":[{"id":"hot_index","type":"SelectorText","parentSelectors":["container"],"selector":"div.game-card__index","multiple":false,"regex":"","delay":0},{"id":"name","type":"SelectorText","parentSelectors":["container"],"selector":"p.tap-app-title__name","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["container"],"selector":"div.app-rating__number","multiple":false,"regex":"","delay":0},{"id":"container","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.game-card","multiple":true,"delay":2000},{"id":"image","type":"SelectorImage","parentSelectors":["container"],"selector":".app-icon img[src]","multiple":false,"delay":0}]}

点击Export data as CSV按钮，点击Download now！即可下载数据至csv。

Web Scraper 的优点

轻量：非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。对于一些限制安装第三方软件的公司电脑，可以很轻易的突破这层限制
提效：Web Scraper 支持绝大多数的网页的爬取，可以无侵入的加入你的日常工作流中
快：抓取速度取决于你的网速与浏览器加载速度，其他的数据采集软件可能有限速现象（充钱就能不限速）

Web Scraper 的缺点

只支持文本数据抓取：图片短视频等多媒体数据无法批量抓取
不支持范围抓取：例如一个网页有 1000 条数据，默认是全量抓取的，无法配置抓取范围。想停止抓取，只能断网模拟数据加载完毕的情况
不支持复杂网页抓取：对于那些加了复杂交互、酷炫的特效和反人类的反爬虫网页，Web Scraper 无能为力（其实这种网页写 python 爬虫也挺头疼）
导出数据乱序：想让数据正序就得用 Excel 或者用 CouchDB，相对复杂了一些

网友评论

本文标题：Chrome浏览器爬虫工具Web Scraper

本文链接：https://www.haomeiwen.com/subject/hrfpultx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！