Xpath的使用
from: Mp
ps:此文为自我学习总结的一些常用的,熟知的东西,复杂操作建议看官方文档
xpath概念
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
Xpath文档
使用
一些常用的语法
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性
| 左右侧表达式都成立
[] 在括号内写 @属性,数字,last(), 判断语句,是查找包含某个指定的值的节点
node() 匹配任何类型的节点。
在python中使用
安装lxml
pip install lxml
使用lxml的etree,可以将字符串解析成HTML文档
lxml 可以自动修正 html 代码
# 使用lxml的etree库
from lxml import etree
# 利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text)
# 按字符串序列化HTML文档
result = etree.tostring(html)
组合使用
# 在获取response之后
html = response.content
html_obj = etree.HTML(html)
result = html_obj.xpath("//a[@class='j_th_tit ']/@href") # 查找语句
网友评论