美文网首页
Chrome浏览器爬虫工具Web Scraper

Chrome浏览器爬虫工具Web Scraper

作者: 修行的修行 | 来源:发表于2021-07-03 17:39 被阅读0次

    Web Scraper用途

    日常学习工作中,我们多多少少都会遇到一些临时的数据爬取需求,比如说运营活动时收集用户评价,竞品分析时收集友商数据。

    当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被并不简单的学习教程所劝退。但是今天我要推荐的是 Web Scraper,一个轻量的数据爬虫工具。

    Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只要熟悉基本操作,一小时内就能掌握使用方法,几分钟就可以制作一些日常的爬虫。

    安装方法及更多介绍

    https://sspai.com/post/55390

    案例----爬取taptap热门榜

    1.创建爬虫任务

    安装完web scraper后,我们先打开谷歌浏览器,访问网址https://www.taptap.com/top/download

    按下F12,点选Web Scraper,下拉Create new sitemap并点击Create Sitemap

    设置名称和爬取网址

    2.制作数据框的集合

    我们查看taptap热门榜,发现该网站形式类似刷微博,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远没有尽头。经查看,taptap热门榜是展示150条。

    点击Add new selector。

    接下来我们通过Select按钮多选,包裹要爬取得所有数据框,每一个数据框应该对应csv的一条数据。

    保证点选Selector里的Element preview按钮实现这样的效果。

    3.数据框里的字段选择

    这边我们选择序号,名称,分值,图片地址4个字段进行爬取

    [图片上传失败...(image-636c70-1625305160878)]

    通过以上截图,可以发现2个关键点:

    1.Parent Selectors 选择我们刚做好的container

    2.不用点选Multiple

    4.执行爬虫任务并获取数据

    点击Scrape按钮,即可执行爬取任务,待爬取完毕。

    点击Browse按钮,查看刚爬取的数据。

    点击Export Sitemap按钮,获取制作好的脚本代码,可复制给别的小伙伴用。

    神秘代码:

    {"_id":"taptap","startUrl":["https://www.taptap.com/top/download"],"selectors":[{"id":"hot_index","type":"SelectorText","parentSelectors":["container"],"selector":"div.game-card__index","multiple":false,"regex":"","delay":0},{"id":"name","type":"SelectorText","parentSelectors":["container"],"selector":"p.tap-app-title__name","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["container"],"selector":"div.app-rating__number","multiple":false,"regex":"","delay":0},{"id":"container","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.game-card","multiple":true,"delay":2000},{"id":"image","type":"SelectorImage","parentSelectors":["container"],"selector":".app-icon img[src]","multiple":false,"delay":0}]}

    点击Export data as CSV按钮,点击Download now!即可下载数据至csv。

    Web Scraper 的优点

    • 轻量:非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。对于一些限制安装第三方软件的公司电脑,可以很轻易的突破这层限制

    • 提效:Web Scraper 支持绝大多数的网页的爬取,可以无侵入的加入你的日常工作流中

    • :抓取速度取决于你的网速与浏览器加载速度,其他的数据采集软件可能有限速现象(充钱就能不限速)

    Web Scraper 的缺点

    • 只支持文本数据抓取:图片短视频等多媒体数据无法批量抓取

    • 不支持范围抓取:例如一个网页有 1000 条数据,默认是全量抓取的,无法配置抓取范围。想停止抓取,只能断网模拟数据加载完毕的情况

    • 不支持复杂网页抓取:对于那些加了复杂交互、酷炫的特效和反人类的反爬虫网页,Web Scraper 无能为力(其实这种网页写 python 爬虫也挺头疼)

    • 导出数据乱序:想让数据正序就得用 Excel 或者用 CouchDB,相对复杂了一些

    相关文章

      网友评论

          本文标题:Chrome浏览器爬虫工具Web Scraper

          本文链接:https://www.haomeiwen.com/subject/hrfpultx.html