美文网首页网络爬虫Python数据采集与爬虫
Web Scraper官方文档中文版(第3部分)

Web Scraper官方文档中文版(第3部分)

作者: 风巢 | 来源:发表于2018-01-04 19:10 被阅读47次

    Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。以下是官方文档中文翻译:

    译文第 1 部分

    译文第 2 部分

    译文第 3 部分如下:

    4.2 Link 选择器

    Link 选择器用于链接提取及网站导航。如果你只使用 Link 选择器,而未添加任何子选择器,则此选择器只会提取链接以及此链接的 href 属性。如果为此 Link 选择器添加子选择器,则子选择器会作用在此链接指向的网页。如要选中多个链接则需选中 multiple 选项。

    注意:Link 选择器仅作用于有 href 属性 的  标签。如果 Link 选择器无效则可尝试以下变通方案:

    1)检查点击项目后浏览器 URL 栏中网址变化(“#”后变化不计),如果网址未发生改变,则此网站可能使用 ajax 技术加载数据。你应换用 Element click 选择器。

    2)如果网站打开一个弹出框,那么你应该使用 Link popup 选择器。

    3)该网站可能使用JavaScript window.location 改变URL。Web Scraper 当下无法处理此类导航。

    4.2.1 设定选项

    1)selector - CSS 选择器,用于提取用于网址导航的链接元素

    2)multiple - 提取多个项目,默认选中

    4.2.2 应用案例

    1)多层级导航

    如下图,电子商务网站有多层级导航 - categories(主分类) -> subcategories(子分类)。为了从所有主分类及子分类中抓取数据,你需要创建两个 Link 选择器,一个用于选择主分类中链接,另一个用于选择子分类中链接。子分类链接选择器应为主分类链接选择器的子选择器,用于提取子分类页面数据的选择器应为指向子分类页面 Link 选择器的子选择器。

    2)处理分页

    如下图,电子商务网站具有多个分类。每个分类多个项目分数页列出,每页中有分页链接。有些页面无法直接从当前页面直达(如下图,你可以看到页面 1~3 及 8~9 的链接,但无法看到页面 4~7 的链接)。你可以先建立 sitemap 访问每个分类,然后在从分类页提取项目。这个 sitemap 只会从分页的第 1 页提取项目。为了从所有(包括那些未显示出来的) 分页提取项目,你需要创建另一个 Link 选择器选中分页链接。下图展示了如何在 sitemap 中建立此选择器。当 Scraper 打开分类链接后会从中提取项目,随后会访问分页链接,继而递归访问所有页面。

    下图展示了此选择器结构图,你可看出如何从分页链接提取更多分页链接及数据。

    4.3 Link popup (弹出链接)选择器

    Link popup 选择器的作用方式同 Link 选择器类似。可用作链接提取及网站导航。它们的唯一差别是 Link popup 选择器应用在当点击链接时弹出新窗口(而不是在原标签页加载页面或是打开一个新标签页)的情况。此选择器会普戳弹出新窗口的事件并提取 URL。如果站点视觉上弹出但并不是一个新窗口你应当尝试 Element click 选择器。

    注意:当选择链接元素时你可以移动鼠标在元素上方并在键盘上按下“S”键将其选中,以防弹出新窗口。

    应用案例

    参照 Link 选择器应用案例。

    相关文章

      网友评论

        本文标题:Web Scraper官方文档中文版(第3部分)

        本文链接:https://www.haomeiwen.com/subject/azhdnxtx.html