爬虫之 xpath

作者: 煎炼 | 来源:发表于2018-12-22 14:03 被阅读0次

爬虫之 xpath
爬虫解析库XPath使用
爬虫处理——结构化数据操作
爬虫篇之--xpath
python爬虫之xpath
Python爬虫(十三)_案例：使用XPath的爬虫
XPath轴方法 - 捕捉
标签内容但不捕获
下的<
爬虫系列（十）：使用xpath做爬虫
xpath 资料
爬虫 xpath

xpath是爬虫中一种分析页面数据的方法之一，可以补全非标准的html页面，方便获取数据，运用起来也比较简单，

首先呢，先说一下补全非标准的html

1-1

这里面的html是我自己写的一段简单的不完整的html，现在运行一下这段代码，可以看到缺失的代码已经自动补全了，像这种模块还有很多，例如：xml，bs4等。

1-2

下面开始获取页面中的内容了

先访问页面，下载页面源码。这里我就用requests了，以这个网址为例：https://search.jd.com/Search?keyword=%E8%A1%A3%E6%9C%8D&enc=utf-8&wq=%E8%A1%A3%E6%9C%8D&pvid=d3ff37dc76574151b4e63087334dfb24

1-2

运行一下就可以看到我们需要的源码已经下载下来了，为了防止我们下载的源码有缺失，进而影响我们的数据获取，我们使用xpath将页面补全。

html = etree.HTML(r)

现在我们就可以开始获取数据了，首先要先分析一下我们需要的数据在页面的那个结构中。

假如我们需要页面商品的链接

1-3

我们可以看到每个商品在一个div中，而这个div的class属性是p-img

那么我们就可以用xpath根据这个属性去获取数据

url =html.xpath("//div[@class='p-img']/a/@href")

这段代码是匹配：页面中class属性等于p-img的div，这个div中的a的href属性中的数据，也就是商品链接了，是不是很简单呢。其他数据也可以通过这种方法进行匹配

打印一下我们的url

1-4

将页面中的所有符合的数据返回成了一个列表。

具体的使用方法可以参考官方文档。

网友评论

本文标题：爬虫之 xpath

本文链接：https://www.haomeiwen.com/subject/scyikqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫之 xpath

相关文章

爬虫之 xpath

爬虫解析库XPath使用

爬虫处理——结构化数据操作

爬虫篇之--xpath

python爬虫之xpath

Python爬虫(十三)_案例：使用XPath的爬虫

XPath轴方法 - 捕捉
标签内容但不捕获
下的<

爬虫系列（十）：使用xpath做爬虫

xpath 资料

爬虫 xpath

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫 之 xpath

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫之 xpath