xpath

作者: 清酒金杯空对月 | 来源:发表于2019-02-24 20:30 被阅读0次

    什么是xpath?

    xpath (lxml Path language)是一门在xml文档中查找信息的语言,可以遍历和搜索,xml文档中的文本和属性,同样适用html
    

    什么是xml?

    是一门可扩展的编辑语言,是为了传输数据,内部的标签可自定义
    
    '''xml的结构类似于HTML
       安装lxml库:pip3 install lxml
    

    xpath语法的路径表达式(常用)

    nodename(节点名称)------获取此节点下所有的子节点
    /                 -------获取当前节点下的直接子节点
    //              -------获取当前节点下的节点,不考虑节点位置
    .               -------获取当前节点
    ..             -------获取当前节点的父节点
    @+属性名--------获取属性
    

    bs4_usod(Beautifulsoup4)?

    是python的一个xml和html的解析器,目的是从xml或HTML中提取数据
    '''安装:pip3  install  beautifulsoup4
    beautifulsoup4比xpath解析数据要慢,因为          beautifulsoup4载入的是整个html文档
    

    方法

    findall()查找所以节点   findall()查找单个节点    
    
    支持CSS选择器
    获取标签属性写法:p['class']或p.attrs['class']
    获取标签文本:p.get_text()或p.string
    注意:使用beautifulsoup需要依赖其他解析器
    ‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
    ‘HTML.parser’是python内置的解析器    
    参数作用:
    name=None ------设置要获取的节点名称
    attrs={}  ------是一个字典类型,设置标签的属性
    limit=None-----限制返回的条数
    text(字符串) 查找符合text文本的字符串,并返回。
    

    相关文章

      网友评论

          本文标题:xpath

          本文链接:https://www.haomeiwen.com/subject/jdibyqtx.html