xpath 和 pyquery

作者: 谢小路 | 来源:发表于2017-01-14 17:49 被阅读850次

xpath 和 pyquery
2-3 Scrapy选择器的用法
pyquery 库详解
2018-05-09 D2 1.3解析库的安装
Python爬虫的3种内容解析方式
[Python] XPath使用
python爬虫day-16（解析库-XPath）
beautifulsoup、xpath、pyquery总结
Re、Xpath、Beautiful、PyQuery、
xpath , beautifulsoup4 , pyquery

主题：

**xpath 和 pyquery **

xpath

选取节点

表达式	描述	实例	介绍
nodename	选取nodename节点的所有子节点	xpath("//div")
/	从根节点选取	xpath('/div')
//	选取所有的当前节点，不考虑位置	xpath("//div")
.	选取当前节点	xpath(‘./div’)	选取当前节点下的div节点
..	选取当前节点的父节点	xpath(‘..’)	回到上一个节点
@	选取属性	xpath（’//@calss’）	选取所有的class属性

谓语

表达式	结果
xpath(‘/body/div[1]’)	选取body下的第一个div节点
xpath(‘/body/div[last()]’)	选取body下最后一个div节点
xpath(‘/body/div[last()-1]’)	选取body下倒数第二个div节点
xpath(‘/body/div[positon()<3]’)	选取body下前两个div节点
xpath(‘/body/div[@class]’)	选取body下带有class属性的div节点
xpath(‘/body/div[@class=”main”]’)	选取body下class属性为main的div节点
xpath(‘/body/div[price>35.00]’)	选取body下price元素值大于35的div节点

通配符

表达式	结果
xpath（’/div/*’）	选取div下的所有子节点
xpath(‘/div[@*]’)	选取所有带属性的div节点

取多个路径

表达式	结果
xpath(‘//div\|//table’)	选取所有的div和table节点

xpath轴

轴名称	表达式	描述
ancestor	xpath(‘./ancestor::*’)	选取当前节点的所有先辈节点（父、祖父）
ancestor-or-self	xpath(‘./ancestor-or-self::*’)	选取当前节点的所有先辈节点以及节点本身
attribute	xpath(‘./attribute::*’)	选取当前节点的所有属性
child	xpath(‘./child::*’)	返回当前节点的所有子节点
descendant	xpath(‘./descendant::*’)	返回当前节点的所有后代节点（子节点、孙节点）
following	xpath(‘./following::*’)	选取文档中当前节点结束标签后的所有节点
following-sibing	xpath(‘./following-sibing::*’)	选取当前节点之后的兄弟节点
parent	xpath(‘./parent::*’)	选取当前节点的父节点
preceding	xpath(‘./preceding::*’)	选取文档中当前节点开始标签前的所有节点
preceding-sibling	xpath(‘./preceding-sibling::*’)	选取当前节点之前的兄弟节点
self	xpath(‘./self::*’)	选取当前节点

功能函数

1.png

使用xpath中，多结合功能函数和谓语的使用可以减少提取信息的难度

总结

节点的遍历
属性的提取
文本的提取

pyquery

可以让你用jquery语法来对xml进行查询

基本概念

2.png

1484385342126.png

提取：Fiserv Inc

doc = PyQuery(html)
使用id标签
doc("#instrumentname").text()

'Fiserv Inc.'

提取：NASDAQ: FISV

使用id标签
doc("#instrumentticker").text()
'NASDAQ: FISV'

使用class 标签
doc(".textdeemphasized").text()
'NASDAQ: FISV'

使用tagname 
doc("p").eq(0).text() # p元素包含很多个，eq(0)表示是第一个p元素
'NASDAQ: FISV'

提取p元素

all_tag_p = doc("p").items()

for one in all_tag_p:
    print (one.text())

NASDAQ: FISV
Set Alerts
Find a Broker
Join TD Ameritrade
Market Index
After Hours
-- Quotes are delayed by 20 min
Jan 13, 2017, 4:44 p.m.
$
110.30

Change
0.00 0.00%
Volume
Volume 31,006
Quotes are delayed by 20 min
Previous close
...

提取属性值attr

p_id = doc("p").attr("id")

'instrumentticker'

p_class = doc("p").attr("class")

'textdeemphasized'

总结

获取标签值：tag
获取属性：#, .
获取文本：text()

做的绝大多数爬行就是对标签、属性、文本等的获取，关键是选择较好的适合自己的方法，当然各种方法的选择效率也不一样。我比较属性的是xpath, 然而当我接触到pyquery看下文档就差不多也能获取到自己需要的网页内容，接下来关键是熟悉的过程。

参考

xpath 和 pyquery
主题： **xpath 和 pyquery ** xpath 选取节点谓语通配符取多个路径 xpath轴功...
2-3 Scrapy选择器的用法
一、四大选择器 CSS、Xpath、正则表达式和pyquery，推荐使用pyquery和正则表达式二、pyque...
pyquery 库详解
安装 pyquery官网地址验证安装没报错即表示安装成功 pyquery 介绍虽然 xpath 与 Beau...
2018-05-09 D2 1.3解析库的安装
1.3 解析库的安装解析库：lxml， Beautiful Soup, pyquery 解析方法：Xpath解析...
Python爬虫的3种内容解析方式
⾸先创建⼀个html⽂件：my.html ⽤于测试XPath\Beautiful Soup\PyQuery的解析效...
[Python] XPath使用
内容参考：4.1-使用XPath（崔庆才）官方文档：http://pyquery.readthedocs.io更多...
python爬虫day-16（解析库-XPath）
个人学习笔记，方便自己查阅，仅供参考，欢迎交流解析库：XPath、Beautiful Soup、pyquery ...
beautifulsoup、xpath、pyquery总结
1、beautifulsoup 初始化用于结构简单清晰的网页，下面两个都适用于复杂的网页 2、xpath 初始化...
Re、Xpath、Beautiful、PyQuery、
正则在python中使用正则表达式需要导入re模块 Xpath xpath:可以在xml中查找信息，对xml文档...
xpath , beautifulsoup4 , pyquery
xpath动态加载：使用json串转换静态页面：使用正则，xpath.......结构化数据：先有结构，在有数据j...