美文网首页
网页解析之Xpath学习

网页解析之Xpath学习

作者: hcc_9bf4 | 来源:发表于2019-05-30 21:03 被阅读0次

    1. 什么是xpath?

    pip install lxml
    官方定义:XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
    xml是用来存储和传输数据使用的,和html的不同有两点:

    • HTML 用来显示数据,而 XML 是用来传输数据。
    • HTML标签是固定的,xml标签是自定义的
      XPATH用来在XML中查找指定的元素,它是一种路径表达式
      常用的路劲表达式:
    • // :不考虑位置的查找
    • ./ :从当前节点开始往下查找
    • ../ :从当前节点的父节点查找。(用的少)
    • @: 选取属性。

    实例:
    /bookstore/book 选取根节点bookstore下所有直接子节点book
    //book 选取所有 book
    bookstore//book 查找bookstore 下面的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
    /bookstore/book[1] 查找bookstore 里面的第一个 book
    /bookstore/book[last()] 查找bookstore 里面的最后一个 book
    /bookstore/book[last()-1] 查找 bookstore 里面的倒数第二个 book
    /bookstore/book[position()<3] 查找 bookstore 里面的前两个 book
    //title[@lang] 所有带有lang 的属性的 title
    //title[@lang='eng'] 所有的lang属性值为eng的title节点
    星(*) 匹配任何元素节点。

    安装xpath插件

    1.下载地址,版本号为 2.0.2:

    链接: https://pan.baidu.com/s/1GXPm1kMENXhOkefKcEQnlA 密码: 8wwv

    2.安装

    1).在chrome右上角找到选项--》更多工具--》扩展程序。把crx文件拖拽,即可安装。

    2).如果安装失败,显示

    image.png

    则打开开发者模式,再次安装。

    3)如果2也失败,请将crx文件(直接或后缀修改为rar)解压,点击开发者模式的 加载已解压的扩展程序,选择解压后的文件夹,点击确定,搞定

    image.png

    相关文章

      网友评论

          本文标题:网页解析之Xpath学习

          本文链接:https://www.haomeiwen.com/subject/qulbtctx.html