在之前的文章和课程中,对web scraper的安装和使用方法都做了非常详细说明,相信大家都明白了web scraper的用处和采集流程,那么今天就以采集影视明星胡歌微博为例,继续深入说明web scraper的使用。
安装和使用web scraper的方法可以翻看我之前的文章,如果找不到文章或者无法下载web scraper插件可以联系我微信zds369466004。
打开目标网页:https://weibo.com/hu_ge?profile_ftype=1&is_all=1#_0,需要采集的是微博内容,因此,在目标网页上执行下列操作:
一、通过下面通过下面三种方法打开web scraper:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者Tools / Developer tools
2、mac: Cmd+Opt+I, 或者Tools / Developer tools
3、或者:右键——> 审查元素(适用于各个系统),选择web scraper即可。
二、新建采集站点地图。
1、点击create new sitemap选择create sitemap,如下图所示即可建立一个站点地图。
2、点击create sitemap后就可以进入到站点地图的相关设置页面:
这里需要填写的是sitemap name和start url:
Sitemap:是地图名字,可以自己填写
Start url:指的是采集链接,就是你采集的页面的链接,直接从浏览器将链接复制即可。
最后点击create sitemap即可创建好了采集地图。
三、设置一级采集器
因为我们要采集的内容包括微博内容,所以就需要选设定选择范围,这里范围的设定就是一级采集器。
在之前第二步建立好站点采集器后的基础上,就进入到了一级采集器的设置页面:
这些设置在之前的文章中都有非常详细的介绍,如果有兴趣的朋友,可以看看之前的文章,那么这里就做简单的介绍:
1、Id:指的是以及选择器的名称,大家可以根据自己需求来设置,这里设置content;
2、Type:指的是采集器的内容,有采集文本的text、有采集链接的link、有采集图片的image类型等等,因为这里是翻页,此处选择Element click,指的就是点击翻页。
3、点击 “Select” 进行元素选择,把鼠标移到目标对象上,对象会变成淡蓝色,当点击需要采集的元素后,就会变成淡红色,这就表示选择好了元素。
在选择第一个元素后,再移动鼠标放到第二个需要选择的元素上,点击元素变成红色之后,也表示选中了。此时页面页面上相同的元素就会编程一样的红色,完成后,点击悬浮工具框蓝色的“Done slecting!"
4、勾选 “Multiple”,表示选择的内容是多样的;
5、Delay:表示延迟时间,意思是等待多长时间后,再进行抓取,建议填2000
6、点击”Save Selector“
这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图
四:设置二级采集器,选择具体的元素
在第三个步骤设置好一级采集器也就是设定选择范围后,我们需要提取选择范围中我们需要的元素,这就是二级采集器的功能。
1、点击content进入到二级采集器添加页面;
2、点击add new selector,建立二级采集器;
3、进入到二级采集器设置页面,这部分其实是和一级采集器的内容是相同的,但是在设置上是有差别的:
(1)Id:可以自己设置,自己看懂就好;
(2)Type:二级采集器的类型,因为要采集的是文本内容,因此采集器此处选择Text
(3)点击 “Select” 进行元素选择,把鼠标移动到第一条微博内容上,点击需要的内容,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色,此时就表示以及选取目标;
(4)点击”Save Selector“,其他的都不用设置。
以上,我们抓取胡歌微博的所有设置都已完成。
五、开始正式抓取:
1、在经过上面4个步骤设置后,就可以正式开始抓取了,如下图选择scrape即可:
2、点击scrape后,就会进入到时间设置页面,这几个都默认就行:
3、直接点击“Start scraping”,点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。
完毕后,会出现抓取的数据,如下图:如下图:
4、选择export data as csv就可以导出表格;
到这里就完成了全部的抓取过程,我想如何掌握后可以非常快速地设置后,基本上2分钟内就可以搞定了。这就比用python要快很多了。
我其实挺不建议非科班的人因为数据采集然后花大量的时间去学习python,因为数据采集完成之后还需要进行更加复杂的假设和分析,这才是真正重要的地方。
网友评论