使用 XPath 提取网页信息

使用 XPath 提取网页信息

作者: mmmwhy | 来源:发表于2016-12-13 16:33 被阅读457次

使用 XPath 提取网页信息
[spider]网页内容提取之xpath
Python爬取图片（使用urllib2）
在Urllib中使用XPath
Python爬虫学习7-xpath使用
XPath使用小结
Python爬虫学习笔记（1）：抓取静态网页
在 Python 中使用 XPath
webdriver通过browser.page_source得到
(四) Selector

以1024举例，使用XPath提取图片链接以及磁力链接地址。更多见：李飞阳

学习XPath的基本知识

推荐 Xpath教程很容易理解。
推荐可以将常用的语法记下来，不常用的可以等用的时候再查。

推荐使用Chrome浏览器中的XPath Helper，良心之作.

左边输入XPath表达式，右侧会自动展示结果。
选择元素之后按下ctrl + shift + x，可以自动提取该元素的XPath表达式。

使用Xpath Helper自带提取功能

常用语法

/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
@ 选取属性，常见使用方法为[@class = "title"]

举例，比如在双面胶-淘宝搜索页面

输入: //[@class="m-itemlist"]//a[@trace-price<20]/@href*，用来提取出class为itemlist里边a标签里边所有price 小于20的产品，并将其href(即超链接)输出

结果展示

需要结合Chrome浏览器的F12一起使用，先选定大致的框架，比如itemlist这个class，然后逐渐加上更多的要求，具体见文首给出的链接学习。

知道这些就可以抓取1024上的图片和磁力链接了，目测是不是很简单

挑选网页实验一下

作为一名1024资深游客，首先在技术讨论区选择一篇好文，这里用的是[榴民资讯]11月精品主题推荐（49期）

还是熟悉的味道

使用F12查看网页的结构

有两个主要标签 header 和 main 鼠标移动到main上，可以看到内容页面都被包含起来，所以第一个节点应该选main。

main标签

使用XPath表达式筛选图片链接

我们看到图片前边都有一个属性src，这个src后边就是我们所需的图片链接。

综上，使用XPath表达式: //[@id="main"]//@src*

mark
输入XPath代码，获得图片链接。

mark

使用XPath表达式筛选磁力链接

同理，我们可以发现，磁力链接前边都有一个blockquote，与上一条处理方式类似，使用XPath表达式: //[@id="main"]//blockquote*

磁力链接

以上

相关文章

使用 XPath 提取网页信息
以1024举例，使用XPath提取图片链接以及磁力链接地址。更多见：李飞阳学习XPath的基本知识推荐 Xpa...
[spider]网页内容提取之xpath
今天就记录一下，网页提取的神器xpath。我觉得是这些所有的网页内容提取方式中简单的一种。我们是使用xpath来提...
Python爬取图片（使用urllib2）
上篇文章使用 XPath 提取网页信息之后，将链接中的内容下载至本地，需要使用到 urllib2 。更多见：李...
在Urllib中使用XPath
在Urllib中，我们一样可以使用XPath进行信息提取，此时，需要首先安装lxml模块，然后将网页数据通过lxm...
Python爬虫学习7-xpath使用
以网页http://blog.jobbole.com/110691/为例提取： xpath基础知识： xpath节...
XPath使用小结
使用scrapy爬虫，不可避免的需要对网页结构进行分析并提取，其中用到的一个重要的工具就是XPath。XPath可...
Python爬虫学习笔记（1）：抓取静态网页
一、使用XPath抓取静态网页内容的基本流程首先是引入库：然后提取HTML内容最后提取想要的内容用浏览器（我...
在 Python 中使用 XPath
根据字节点中的属性值提取父节点今天使用 Python 的 lxml 模块来提取网页中的内容, 有一个 XPath...
webdriver通过browser.page_source得到
webdriver通过browser.page_source得到网页源代码，再进行xpath提取
(四) Selector
从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Sel...

网友评论

Awanlon:ctral错了...滴，打卡上车！
Awanlon:@mmmwhy 对啊，看scrapy....一步一步的把工具看了，互相学习哈哈哈~
mmmwhy:捂脸哭，你也在看Python吗~

本文标题：使用 XPath 提取网页信息

本文链接：https://www.haomeiwen.com/subject/slhbmttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python教程/练习题

热点阅读

Python教程/练习题

编程技术

关于我们|服务条款|联系我们|使用 XPath 提取网页信息|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！