美文网首页
爬虫 之 xpath

爬虫 之 xpath

作者: 煎炼 | 来源:发表于2018-12-22 14:03 被阅读0次

xpath是爬虫中一种分析页面数据的方法之一,可以补全非标准的html页面,方便获取数据,运用起来也比较简单,

首先呢,先说一下补全非标准的html

1-1

这里面的html是我自己写的一段简单的不完整的html,现在运行一下这段代码,可以看到缺失的代码已经自动补全了,像这种模块还有很多,例如:xml,bs4等。

1-2

下面开始获取页面中的内容了

先访问页面,下载页面源码。这里我就用requests了,以这个网址为例:https://search.jd.com/Search?keyword=%E8%A1%A3%E6%9C%8D&enc=utf-8&wq=%E8%A1%A3%E6%9C%8D&pvid=d3ff37dc76574151b4e63087334dfb24

1-2

运行一下就可以看到我们需要的源码已经下载下来了,为了防止我们下载的源码有缺失,进而影响我们的数据获取,我们使用xpath将页面补全。

html = etree.HTML(r)

现在我们就可以开始获取数据了,首先要先分析一下我们需要的数据在页面的那个结构中。

假如我们需要页面商品的链接

1-3

我们可以看到每个商品在一个div中,而这个div的class属性是p-img

那么我们就可以用xpath根据这个属性去获取数据

url =html.xpath("//div[@class='p-img']/a/@href")

这段代码是匹配:页面中class属性等于p-img的div,这个div中的a的href属性中的数据,也就是商品链接了,是不是很简单呢。其他数据也可以通过这种方法进行匹配

打印一下我们的url

1-4

将页面中的所有符合的数据返回成了一个列表。

具体的使用方法可以参考官方文档。

相关文章

  • 爬虫 之 xpath

    xpath是爬虫中一种分析页面数据的方法之一,可以补全非标准的html页面,方便获取数据,运用起来也比较简单, 首...

  • 爬虫解析库XPath使用

    爬虫解析库XPath使用 1.XPath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于...

  • 爬虫处理——结构化数据操作

    爬虫处理之结构化数据操作 目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据 Xpath案例操作...

  • 爬虫篇之--xpath

    在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,使用xpath对html进行分析,获取抓取的信息。...

  • python爬虫之xpath

    一. python使用xpath 使用时先安装 lxml 包 二. xpath简介 XPath,全称 XML Pa...

  • Python爬虫(十三)_案例:使用XPath的爬虫

    本篇是使用XPath的案例,更多内容请参考:Python学习指南 案例:使用XPath的爬虫 现在我们用XPath...

  • XPath轴方法 - 捕捉
  • 标签内容但不捕获
  • 下的<
  • XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1. 爬虫xpath遇到的问题:抓取

  • 爬虫系列(十):使用xpath做爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个...

  • xpath 资料

    xpath路径表达式笔记 学爬虫利器XPath,看这一篇就够了 有感4月份,看过的python基础和爬虫相关的知识...

  • 爬虫 xpath

    一:回顾正则 find、rfind、replace 字符串处理函数只能处理固定的字符串baby hello 不能处...

网友评论

      本文标题:爬虫 之 xpath

      本文链接:https://www.haomeiwen.com/subject/scyikqtx.html