Web Scraper官方文档中文版（第3部分）

作者: 风巢 | 来源:发表于2018-01-04 19:10 被阅读47次

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。以下是官方文档中文翻译：

译文第 3 部分如下：

4.2 Link 选择器

Link 选择器用于链接提取及网站导航。如果你只使用 Link 选择器，而未添加任何子选择器，则此选择器只会提取链接以及此链接的 href 属性。如果为此 Link 选择器添加子选择器，则子选择器会作用在此链接指向的网页。如要选中多个链接则需选中 multiple 选项。

注意：Link 选择器仅作用于有 href 属性的标签。如果 Link 选择器无效则可尝试以下变通方案：

1）检查点击项目后浏览器 URL 栏中网址变化（“#”后变化不计），如果网址未发生改变，则此网站可能使用 ajax 技术加载数据。你应换用 Element click 选择器。

2）如果网站打开一个弹出框，那么你应该使用 Link popup 选择器。

3）该网站可能使用JavaScript window.location 改变URL。Web Scraper 当下无法处理此类导航。

4.2.1 设定选项

1）selector - CSS 选择器，用于提取用于网址导航的链接元素

2）multiple - 提取多个项目，默认选中

4.2.2 应用案例

1）多层级导航

如下图，电子商务网站有多层级导航 - categories（主分类） -> subcategories（子分类）。为了从所有主分类及子分类中抓取数据，你需要创建两个 Link 选择器，一个用于选择主分类中链接，另一个用于选择子分类中链接。子分类链接选择器应为主分类链接选择器的子选择器，用于提取子分类页面数据的选择器应为指向子分类页面 Link 选择器的子选择器。

2）处理分页

如下图，电子商务网站具有多个分类。每个分类多个项目分数页列出，每页中有分页链接。有些页面无法直接从当前页面直达（如下图，你可以看到页面 1~3 及 8~9 的链接，但无法看到页面 4~7 的链接）。你可以先建立 sitemap 访问每个分类，然后在从分类页提取项目。这个 sitemap 只会从分页的第 1 页提取项目。为了从所有（包括那些未显示出来的）分页提取项目，你需要创建另一个 Link 选择器选中分页链接。下图展示了如何在 sitemap 中建立此选择器。当 Scraper 打开分类链接后会从中提取项目，随后会访问分页链接，继而递归访问所有页面。

下图展示了此选择器结构图，你可看出如何从分页链接提取更多分页链接及数据。

4.3 Link popup （弹出链接）选择器

Link popup 选择器的作用方式同 Link 选择器类似。可用作链接提取及网站导航。它们的唯一差别是 Link popup 选择器应用在当点击链接时弹出新窗口（而不是在原标签页加载页面或是打开一个新标签页）的情况。此选择器会普戳弹出新窗口的事件并提取 URL。如果站点视觉上弹出但并不是一个新窗口你应当尝试 Element click 选择器。

注意：当选择链接元素时你可以移动鼠标在元素上方并在键盘上按下“S”键将其选中，以防弹出新窗口。

应用案例

参照 Link 选择器应用案例。

网友评论

本文标题：Web Scraper官方文档中文版（第3部分）

本文链接：https://www.haomeiwen.com/subject/azhdnxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Web Scraper官方文档中文版（第3部分）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

网络爬虫

Python数据采集与爬虫