美文网首页大数据 爬虫Python AI Sql互联网科技码农的世界
学了那么久的Python,你见过不用写代码的爬虫吗?

学了那么久的Python,你见过不用写代码的爬虫吗?

作者: IT派森 | 来源:发表于2019-06-28 22:13 被阅读4次

今天说一个不用写代码,怎么来抓取数据的方式,这种方式能满足相当部分人群的需求。

爬数据通常要用程序写一段网络请求代码来获取网页,遇到有些网页是异步加载或者用JS混淆了,又要耗费精力去分析。尤其是很多爬虫选手是非专业选手,写起代码其实挺吃力的,在我的了解来看大部分公司或者爬数据的需求都是一次性的,而且获取数据的量级很小,万或数十万条数据这样的规模,而且是一次性的。这可以不用去开发程序,使用一些工具就能办到,比如Web Scraper工具。

Web Scraper

Web Scraper是一个网页抓取工具,不需要复杂的安装配置,是以Chrome 插件的形式运行在Chrome浏览器上。不用担心抓取的网页是否异步加载或者有JS混淆之类的,是所见即所得的抓取方式,熟练情况下抓取数据只需要花10-20分钟完成配置就能开始抓取(写代码可能需要数小时乃至数天)。非常适合一次性/短期/非爬虫专业选手爬数据的需求。

演示一下,比如我们要抓这个网站URL下面的商店名称和用户评论。

如何安装和配置Web Scraper?

1.Chrome浏览器里的插件商店里搜索Web Scraper即可安装,如果你不能访问Chrome插件商店,在猿人学Python公众号回复 Web Scraper ,可以在本地安装Chrome插件,怎么操作就不再赘述了。

2.安装好Web Scraper插件后,打开Chrome浏览器的开发者工具,能看到Web Scraper选项代表安装成功。

3.配置抓取规则

配置也很简单,先科普下,我们在写程序抓取网页时,通常需要一个入口页面(这个页面通常是一个频道页,列表页之类的),程序抽取入口页面的URL,接着访问这些URL再抽取里面我们需要的详细信息。

比如,要抽取点评网上的私房菜分类下的店名和小店里面的评论。我们首先需要一个入口页面(即 私房菜频道的URL),抽取该页面里的小店URL,程序访问这些小店URL,再抽取小店里面的店名,评论等信息。

配置Web Scraper也是一样的道理,需要一个入口页面(Start URL),然后配置抽取入口页面的URL规则,配置好后紧接着再配置抽取详细页信息的规则。详细的Web Scraper教程可以查看原文,我在猿人学网站上写了个简单的Web Scraper配置教程。

比如你要抓取点评网私房菜频道里的小店和点评评论。

第一步把私房菜频道的URL当着Start URL。

如果你想翻页的话,检查一下点评网的翻页规则,它的翻页是这样:

第二页

http://www.dianping.com/shanghai/ch10/g1338p2

第三页

http://www.dianping.com/shanghai/ch10/g1338p3

就可以把翻页规则写成这样

http://www.dianping.com/shanghai/ch10/g1338p[0-5]

表示从第1页翻到第5页

第二步创建一个抽取入口页面里URL的规则,即抽取小店URL,看gif最直观:

完全是可视化操作,Type里选择Link,Selector上选择Select,然后鼠标先选几下页面上的小店,自动把抽取小店url的xpath规则就写好了。点击Data preview可以检查和预览抽取规则是否生效。

第三步常见抽取小店详细页信息的规则,比如抽取评论:

熟练的话,10-20分钟就能配置好一个抓取规则,当然更复杂的数据抽取规则你可以看它官网的文档。

https://www.webscraper.io/documentation

使用Web Scraper这种抓取方法一次抓取上千条数据不成问题,适用想少量抓取用来数据分析,或者补充抓取数据。当然再配合使用切换代理ip软件的话,也可以做到长时间大量抓取数据用,只是效率没那么高。

总结Web Scraper的优点:

1.可以抓取动态加载的数据,比如通过ajax翻页的数据;

2.抓取的数据可以CSV文件格式导出到本地;

3.抓取需要登录的数据较方便,因为这个插件是运行在浏览器上的;

4.不用担心JS/CSS混淆数据;

5.配置简单,可视化配置抽取规则。

相关文章

网友评论

    本文标题:学了那么久的Python,你见过不用写代码的爬虫吗?

    本文链接:https://www.haomeiwen.com/subject/rshycctx.html