学了那么久的Python，你见过不用写代码的爬虫吗？

学了那么久的Python，你见过不用写代码的爬虫吗？

作者: IT派森 | 来源:发表于2019-06-28 22:13 被阅读4次

学了那么久的Python，你见过不用写代码的爬虫吗？
学了那么久的Python，你见过不用写代码的爬虫吗？
爬虫入门教程⑤—安装Python
Python 你见过三行代码的爬虫吗
不用写代码的爬虫工具
微软开源最强Python自动化神器Playwright！不用写一
记：用Python爬到的第一篇小说
python爬取简历模板
java爬虫与python爬虫谁更强？
7个实用的Python爬虫框架，你喜欢哪一个？

今天说一个不用写代码，怎么来抓取数据的方式，这种方式能满足相当部分人群的需求。

爬数据通常要用程序写一段网络请求代码来获取网页，遇到有些网页是异步加载或者用JS混淆了，又要耗费精力去分析。尤其是很多爬虫选手是非专业选手，写起代码其实挺吃力的，在我的了解来看大部分公司或者爬数据的需求都是一次性的，而且获取数据的量级很小，万或数十万条数据这样的规模，而且是一次性的。这可以不用去开发程序，使用一些工具就能办到，比如Web Scraper工具。

Web Scraper

Web Scraper是一个网页抓取工具，不需要复杂的安装配置，是以Chrome 插件的形式运行在Chrome浏览器上。不用担心抓取的网页是否异步加载或者有JS混淆之类的，是所见即所得的抓取方式，熟练情况下抓取数据只需要花10-20分钟完成配置就能开始抓取（写代码可能需要数小时乃至数天）。非常适合一次性/短期/非爬虫专业选手爬数据的需求。

演示一下，比如我们要抓这个网站URL下面的商店名称和用户评论。

如何安装和配置Web Scraper？

1.Chrome浏览器里的插件商店里搜索Web Scraper即可安装，如果你不能访问Chrome插件商店，在猿人学Python公众号回复 Web Scraper ，可以在本地安装Chrome插件，怎么操作就不再赘述了。

2.安装好Web Scraper插件后，打开Chrome浏览器的开发者工具，能看到Web Scraper选项代表安装成功。

3.配置抓取规则

配置也很简单，先科普下，我们在写程序抓取网页时，通常需要一个入口页面（这个页面通常是一个频道页，列表页之类的），程序抽取入口页面的URL，接着访问这些URL再抽取里面我们需要的详细信息。

比如，要抽取点评网上的私房菜分类下的店名和小店里面的评论。我们首先需要一个入口页面（即私房菜频道的URL），抽取该页面里的小店URL，程序访问这些小店URL，再抽取小店里面的店名，评论等信息。

配置Web Scraper也是一样的道理，需要一个入口页面（Start URL），然后配置抽取入口页面的URL规则，配置好后紧接着再配置抽取详细页信息的规则。详细的Web Scraper教程可以查看原文，我在猿人学网站上写了个简单的Web Scraper配置教程。

比如你要抓取点评网私房菜频道里的小店和点评评论。

第一步把私房菜频道的URL当着Start URL。

如果你想翻页的话，检查一下点评网的翻页规则，它的翻页是这样：

第二页

http://www.dianping.com/shanghai/ch10/g1338p2

第三页

http://www.dianping.com/shanghai/ch10/g1338p3

就可以把翻页规则写成这样

http://www.dianping.com/shanghai/ch10/g1338p[0-5]

表示从第1页翻到第5页

第二步创建一个抽取入口页面里URL的规则，即抽取小店URL，看gif最直观：

完全是可视化操作，Type里选择Link，Selector上选择Select，然后鼠标先选几下页面上的小店，自动把抽取小店url的xpath规则就写好了。点击Data preview可以检查和预览抽取规则是否生效。

第三步常见抽取小店详细页信息的规则，比如抽取评论：

熟练的话，10-20分钟就能配置好一个抓取规则，当然更复杂的数据抽取规则你可以看它官网的文档。

https://www.webscraper.io/documentation

使用Web Scraper这种抓取方法一次抓取上千条数据不成问题，适用想少量抓取用来数据分析，或者补充抓取数据。当然再配合使用切换代理ip软件的话，也可以做到长时间大量抓取数据用，只是效率没那么高。

总结Web Scraper的优点：

1.可以抓取动态加载的数据，比如通过ajax翻页的数据；

2.抓取的数据可以CSV文件格式导出到本地；

3.抓取需要登录的数据较方便，因为这个插件是运行在浏览器上的；

4.不用担心JS/CSS混淆数据；

5.配置简单，可视化配置抽取规则。

相关文章

学了那么久的Python，你见过不用写代码的爬虫吗？
今天说一个不用写代码，怎么来抓取数据的方式，这种方式能满足相当部分人群的需求。爬数据通常要用程序写一段网络请求代...
学了那么久的Python，你见过不用写代码的爬虫吗？
今天说一个不用写代码，怎么来抓取数据的方式，这种方式能满足相当部分人群的需求。爬数据通常要用程序写一段网络请求代...
爬虫入门教程⑤—安装Python
从本节开始，我们开始写代码模块的教程了。 1.为什么爬虫要用Python Python写代码速度快。Python自...
Python 你见过三行代码的爬虫吗
每次讲爬虫的时候都会从“发送请求” 开始讲，讲到解析页面的时候可能大部分读者都会卡住，因为这部分确实需要一点XPA...
不用写代码的爬虫工具
说到爬虫，大多数人会想到用Python来做，毕竟简单好用，比如想抓取豆瓣电影top250 的所有电影数据。简单的...
微软开源最强Python自动化神器Playwright！不用写一
微软开源最强Python自动化神器Playwright！不用写一行代码！大家好，我是八阿哥。相信玩过爬虫的朋友...
记：用Python爬到的第一篇小说
Python脚本基于**阁网站写的一个Python爬虫代码如下： Python是真的强大，不到30行代码就完成了
python爬取简历模板
前言自从学了python爬虫后就想去找一份爬虫的工作，但是简历如何写作是个问题，就想到了何不用爬虫去爬取...
java爬虫与python爬虫谁更强？
java爬虫与python爬虫的对比： python做爬虫语法更简单，代码更简洁。java的语法比python严格...
7个实用的Python爬虫框架，你喜欢哪一个？
Python是网络爬虫的首选语言，在爬虫领域有着独特的优势和用途，而且Python还拥有很多爬虫框架，那么你知道哪...

网友评论

本文标题：学了那么久的Python，你见过不用写代码的爬虫吗？

本文链接：https://www.haomeiwen.com/subject/rshycctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

互联网科技

码农的世界

Python，web开发，前端技术分享

热点阅读

大数据爬虫Python AI Sql

互联网科技

码农的世界

Python，web开发，前端技术分享

关于我们|服务条款|联系我们|学了那么久的Python，你见过不用写代码的爬虫吗？|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！