美文网首页网络技术收集
Web Scraper 爬取表格

Web Scraper 爬取表格

作者: caokai001 | 来源:发表于2020-06-07 14:24 被阅读0次

    参考:

    有关webscraper的问题,看这个就够了(建议收藏)
    少年派web Scraper介绍
    卤蛋实验室-web scrapy 教程
    选择器css

    轻量级工具,使用浏览器插件进行爬虫,不用写代码。


    应用:爬取网页单个表格

    Web Scraper 高级用法——抓取表格数据 | 简易数据分析 11<br />

    • 1.下载chrome Web Scraper 插件
    image.png
    • 5.如果上面表格,填写正确,在这个面板下向下翻,会发现多了一个不一样的面板。观察一下你就会发现,这些数据其实就是表格数据类型的分类,在这个案例里,他把车次、出发站、开车时间等分类都列了出来。

    Table columns 这个分类里,每一行的内容旁边的选择按钮默认都是打勾的,也就是说默认都会抓取这些列的内容。如果你不想抓取某类内容,去掉对应的勾选就可以了。<br />在你点击 Save selector 的按钮时,会发现 Result key 的一些选项报错,说什么 invalid format 格式无效:<br />解决这个报错很简单,一般来说是 Result key 名字的长度不够,你给加个空格加个标点符号就行。如果还报错,就试试换成英文名字:<br />

    image.png

    解决报错保存成功后,我们就可以按照 Web Scraper 的爬取套路抓取数据了。

    1. 下载爬取的表格
    image.pngimage.png

    总结:

    卤蛋实验室

    掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

    Web Scraper 的优点

    • 轻量:非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。对于一些限制安装第三方软件的公司电脑,可以很轻易的突破这层限制
    • 提效:Web Scraper 支持绝大多数的网页的爬取,可以无侵入的加入你的日常工作流中
    • 快:抓取速度取决于你的网速与浏览器加载速度,其他的数据采集软件可能有限速现象(充钱就能不限速)

    Web Scraper 的缺点

    • 只支持文本数据抓取:图片短视频等多媒体数据无法批量抓取
    • 不支持范围抓取:例如一个网页有 1000 条数据,默认是全量抓取的,无法配置抓取范围。想停止抓取,只能断网模拟数据加载完毕的情况
    • 不支持复杂网页抓取:对于那些加了复杂交互、酷炫的特效和反人类的反爬虫网页,Web Scraper 无能为力(其实这种网页写 python 爬虫也挺头疼)
    • 导出数据乱序:想让数据正序就得用 Excel 或者用 CouchDB,相对复杂了一些
    • 模拟人浏览网页操作,不支持并行,侧重小规模获取网站数据

    相关文章

      网友评论

        本文标题:Web Scraper 爬取表格

        本文链接:https://www.haomeiwen.com/subject/cwxctktx.html