使用 XPath 提取网页信息

作者: mmmwhy | 来源:发表于2016-12-13 16:33 被阅读457次

以1024举例,使用XPath提取图片链接以及磁力链接地址。更多见:李飞阳


学习XPath的基本知识

推荐 Xpath教程 很容易理解。
推荐可以将常用的语法记下来,不常用的可以等用的时候再查。

推荐使用Chrome浏览器中的XPath Helper良心之作.

  • 左边输入XPath表达式,右侧会自动展示结果。

  • 选择元素之后按下ctrl + shift + x,可以自动提取该元素的XPath表达式。

使用Xpath Helper自带提取功能

常用语法

  • / 从根节点选取。
  • // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
  • @ 选取属性,常见使用方法为[@class = "title"]

举例,比如在双面胶-淘宝搜索 页面

输入: //[@class="m-itemlist"]//a[@trace-price<20]/@href*,用来提取出class为itemlist里边a标签里边所有price 小于20的产品,并将其href(即超链接)输出

结果展示

需要结合Chrome浏览器的F12一起使用,先选定大致的框架,比如itemlist这个class,然后逐渐加上更多的要求,具体见文首给出的链接学习。

知道这些就可以抓取1024上的图片和磁力链接了,目测是不是很简单


挑选网页实验一下

作为一名1024资深游客,首先在技术讨论区选择一篇好文,这里用的是[榴民资讯]11月精品主题推荐(49期)

还是熟悉的味道

使用F12查看网页的结构

有两个主要标签 header 和 main 鼠标移动到main上,可以看到内容页面都被包含起来,所以第一个节点应该选main。


main标签

使用XPath表达式筛选图片链接

我们看到图片前边都有一个属性src,这个src后边就是我们所需的图片链接。

综上,使用XPath表达式: //[@id="main"]//@src*

mark
输入XPath代码,获得图片链接。
mark

使用XPath表达式筛选磁力链接

同理,我们可以发现,磁力链接前边都有一个blockquote,与上一条处理方式类似,使用XPath表达式: //[@id="main"]//blockquote*

磁力链接

以上

相关文章

  • 使用 XPath 提取网页信息

    以1024举例,使用XPath提取图片链接以及磁力链接地址。更多见:李飞阳 学习XPath的基本知识 推荐 Xpa...

  • [spider]网页内容提取之xpath

    今天就记录一下,网页提取的神器xpath。我觉得是这些所有的网页内容提取方式中简单的一种。我们是使用xpath来提...

  • Python爬取图片(使用urllib2)

    上篇文章 使用 XPath 提取网页信息 之后,将链接中的内容下载至本地,需要使用到 urllib2 。更多见:李...

  • 在Urllib中使用XPath

    在Urllib中,我们一样可以使用XPath进行信息提取,此时,需要首先安装lxml模块,然后将网页数据通过lxm...

  • Python爬虫学习7-xpath使用

    以网页http://blog.jobbole.com/110691/为例提取: xpath基础知识: xpath节...

  • XPath使用小结

    使用scrapy爬虫,不可避免的需要对网页结构进行分析并提取,其中用到的一个重要的工具就是XPath。XPath可...

  • Python爬虫学习笔记(1):抓取静态网页

    一、使用XPath抓取静态网页内容的基本流程 首先是引入库: 然后提取HTML内容 最后提取想要的内容用浏览器(我...

  • 在 Python 中使用 XPath

    根据字节点中的属性值提取父节点 今天使用 Python 的 lxml 模块来提取网页中的内容, 有一个 XPath...

  • webdriver通过browser.page_source得到

    webdriver通过browser.page_source得到网页源代码,再进行xpath提取

  • (四) Selector

    从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Sel...

网友评论

  • Awanlon:ctral错了...滴,打卡上车!
    Awanlon:@mmmwhy 对啊,看scrapy....一步一步的把工具看了,互相学习哈哈哈~
    mmmwhy:捂脸哭,你也在看Python吗~

本文标题:使用 XPath 提取网页信息

本文链接:https://www.haomeiwen.com/subject/slhbmttx.html