美文网首页
xPath与html

xPath与html

作者: 南国铃子 | 来源:发表于2019-12-22 20:43 被阅读0次

xPath 是一种html和xml的查询语言,能在其树状结构中寻找节点。

LXML安装:pip install lxml

——xPath使用-----------------------------------------------------------------------------------

获取文本:

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../text()

获取属性值

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../@属性n

eg:-------------------------------------------------------------------

from lxml import html

def parse():

"""将html文件中内容 使用xpath进行提取"""

    #读取文件中的内容

    f =open('./static/index.html', 'r', encoding='utf-8')

    s = f.read()

    selector = html.fromstring(s)

# 解析a 标签内容

    a = selector.xpath('//div[@id="container"]/a/text()')

    print(a[0])

# 解析href属性

    alink = selector.xpath('//div[@id="container"]/a/@href')

    print(alink[0])

    f.close()

if __name__=='__main__':

    parse()

相关文章

网友评论

      本文标题:xPath与html

      本文链接:https://www.haomeiwen.com/subject/xxvonctx.html