Web Scraper 入门教程（第1课）

作者: 风巢 | 来源:发表于2018-01-31 16:54 被阅读118次

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

本节课我们先举个抓取示例，让大家熟悉下大致操作流程。各步骤详细操作流程（附动画及解说）将在后续课程推出。

一、抓取案例

以抓取知乎大V陈素封文章前 3 页标题、正文全文、点赞数为例。

（https://www.zhihu.com/people/Feat/posts）

大家不妨打开此网页试着手动提取这些数据整理成电子表格，看看这项任务大概要花多长时间，如何无聊，这还只是 3 页，如果是 30 页，300 页呢？你大概要花 10 倍，100 倍精力，我这儿不过改个数字的事。

数据抓取结果如下，完美达成抓取任务。

二、抓取流程

1）第一步：了解网址规则，建立 Sitemap。

2）第二步：熟悉网页结构，按下图顺序创建选择器。

1、元素选择器 ① post-element，用于选择文章元素块。

2、为元素选择器 ① post-element 建立 3 个子选择器，分别为文本选择器 ② post-title、链接选择器 ③ full-content-link、文本选择器 ④ link-count。

3、文本选择器 ②post-title 用于选择文章标题。

4、链接选择器 ③ full-content-link，用于提取全文链接。

5、文本选择器 ④ link-count，用于提取点赞数。

6、建立文本选择器 ⑤ post-full-content，做为链接选择器 ③ full-content-link 的子选择器，用于提取文章全文。

3）抓取数据并导出，稍事整理格式，删除不必要内容后结果如本文开头 Excel 截图结果。

PS：在我公众号后台回复 wsdd，可获取我翻译的《Web Scraper 官方文档》最新版 PDF 文档作为后续学习参考。

网友评论

本文标题：Web Scraper 入门教程（第1课）

本文链接：https://www.haomeiwen.com/subject/hprlzxtx.html

Web Scraper 入门教程（第1课）