学习金字塔中说道,“最有效的学习方法就是教别人”。
如果我们学到某些知识,能清楚的讲给别人听;
或者我们学会某些技能,可以教给别人使用;
那就说明,我们真的学会了。
互联网从业者,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。
但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。
我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。
这个插件,功能十分强大。
微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。
比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。
由于数量太大,我只截取了最后一段。
image.png真是太爽了,有没有。
想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。
今天我来给大家分享这个软件——webscraper。
我们一步一步来,这次我们用李笑来微博作为例子。
一、下载安装
我们需要安装两个软件:
- Chrome浏览器
- webscraper插件
谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。
webscraper插件安装方法有两种:
1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn
image.png按照提示点击“安装”即可
2、从云盘下载webscraper安装包:
链接:https://pan.baidu.com/s/1bp0Iftd
密码: 11kt
下载好以后,
(1)Chrome 浏览器中输入:chrome://extensions/
(2)将下载好的文件拖动到此此页面
(3)根据提示点击:Add extensions;即完成安装。
以上,所需软件就已安装完毕。
二、打开软件
webscraper打开的入口有三种方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右键——> 审查元素(适用于各个系统)
image.png
如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。
三、创建sitemap
image.png如上图,我们点击“create sitemap”,进入下面👇图片;
image.png
如上图:
这个步骤需要输入 2 个信息:
- Sitemap name:根据自己的实际情形自定义,比如抓的是张佳玮的文章,就取名 zhangjiawei。
- Start URL:当前网址 (可直接从浏览器复制)。我们的话要抓取李笑来的微博,就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1
最后点击 Create Sitemap 按钮即可
四、设置selector
image.png如上图,点击“Add new selector”,进入下图;
image.png
如上图,我们按照标号来挨个看。
- 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
- 选择 “Type”,此处选择Element scroll down
- 点击 “Select” 进行元素抓取
- 上一步,点击“Select”后,会出现标号4出悬浮的工具框
- 点击第一个帖子
- 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!"
- 勾选 “Multiple”
- 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)
- 点击”Save Selector“
这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图
image.png点击上图的“content”,进入下图:
image.png
如上如,标号1,你会发现,这里多了一个content。
我们点击这里,标号2的地方,“Add new selector",进入下图:
image.png
如上图:我们按照标号依次看:
- 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
- 选择 “Type”,此处选择Text
- 点击 “Select” 进行元素抓取
- 上一步,点击“Select”后,会出现标号4出悬浮的工具框
- 注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。
- 点击”Save Selector“,其他的都不用设置。
以上,我们抓取李笑来微博的所有设置都已完成。
五、开始抓取
这步,我们开始正式抓取:
image.png如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:
image.png
这几个都默认就行,直接点击标号4的“Start scraping”。
点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。
你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。
完毕后,会出现抓取的数据,如下图:
image.png
六、导出到本地电脑
image.png如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。
image.png
如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。
文件可以用excel打开,mac下用numbers打开即可。
至此,李笑来的微博我们已经全部抓取完毕了。
怎么样,是不是很厉害。
其实这个软件的功能远不止此,大家操作起来吧。
这个工具有时候会受到一些程序员的鄙视,他们说自己会写代码,不屑于用这类工具。
写代码当然可以做到这点,但是,如果你不是专业写爬虫的程序员,你要写一个功能来抓取某些数据,就拿咪蒙公众号历史文章来说,我用这个插件30秒就成完成,你用30秒估计刚打开编辑器,连引用的库都还没写完吧。
所以别来抬杠。。。
如果你遇到webscraper的其他问题,可以看看下面这篇文章——
有关 webscraper 的问题,看这个就够了(建议收藏)
https://www.jianshu.com/p/cd5124ac0871
网友评论
这是 007-4569 卓璇的第 16 次点评,希望对你有帮助,期待多交流 [星与星夜 - 简书](https://www.jianshu.com/u/d8ffec36c1a7)