Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。
本节课我们先举个抓取示例,让大家熟悉下大致操作流程。各步骤详细操作流程(附动画及解说)将在后续课程推出。
一、抓取案例
以抓取知乎大V陈素封文章前 3 页标题、正文全文、点赞数为例。
(https://www.zhihu.com/people/Feat/posts)
大家不妨打开此网页试着手动提取这些数据整理成电子表格,看看这项任务大概要花多长时间,如何无聊,这还只是 3 页,如果是 30 页,300 页呢?你大概要花 10 倍,100 倍精力,我这儿不过改个数字的事。
数据抓取结果如下,完美达成抓取任务。
二、抓取流程
1)第一步:了解网址规则,建立 Sitemap。
2)第二步:熟悉网页结构,按下图顺序创建选择器。
1、元素选择器 ① post-element,用于选择文章元素块。
2、为元素选择器 ① post-element 建立 3 个子选择器,分别为文本选择器 ② post-title、链接选择器 ③ full-content-link、文本选择器 ④ link-count。
3、文本选择器 ②post-title 用于选择文章标题。
4、链接选择器 ③ full-content-link,用于提取全文链接。
5、文本选择器 ④ link-count,用于提取点赞数。
6、建立文本选择器 ⑤ post-full-content,做为链接选择器 ③ full-content-link 的子选择器,用于提取文章全文。
3)抓取数据并导出,稍事整理格式,删除不必要内容后结果如本文开头 Excel 截图结果。
PS:在我公众号后台回复 wsdd,可获取我翻译的《Web Scraper 官方文档》最新版 PDF 文档作为后续学习参考。
网友评论