xpath
在XML文档中查找信息的语言,同样适用于HTML文档的检索
xpath辅助工具
Chrome插件
插件:XPath Helper
打开/关闭:Ctrl + Shift + X
Firefox插件
XPath checker
XPath表达式编辑工具
XML quire
xpath匹配规则
选取节点
-
/
从根节点开始选取 -
//
从整个文档中查找节点 -
@
选取某个节点的属性 -
text()
获取某个节点中的文本 -
节点对象.text
获取节点对象的内容
@的使用
- 选取1个节点
//title[@lang="en"]
- 选取N个节点
//title[@lang]
- 选取节点的属性值
//title/@lang
匹配多路径
# 获取所有book节点下的 title节点和price节点
//book/title | //book/price
函数
# 匹配一个属性值中包含某些字符串的节点
contains()
# title节点包含 e 字符
//title[contains(@lang,"e")]
lxml库及xpath使用
lxml库的使用流程
# 1.导模块
from lxml import etree
# 2.利用lxml库的etree模块创建解析对象
parseHtml = etree.HTML(html)
# 3.解析对象调用xpath工具定位节点信息
# 只要调用了xpath,结果一定是列表
r_list = parseHtml.xpath('xpath表达式')
Ajax动态网站数据抓取
滚动鼠标滑轮时加载
网友评论