美文网首页虫虫
XPath和BeautifulSoup4

XPath和BeautifulSoup4

作者: 优秀的人A | 来源:发表于2019-02-24 19:02 被阅读59次
    什么是XPath?
    • XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历
    什么是XML?
    • XML 指可扩展标记语言
    • XML 是一种标记语言,很类似HTML
    • XML 的设计宗旨是传输数据,而非显示数据
    • XML 的标签需要我们自行定义
    • XML 被设计为具有自我描述性
    • XML 是W3C的推荐标准
    XML和HTML的区别

    XML 是可扩展标记语言,被设计为传输和存储数据,其焦点是数据的内容。
    HTML 是超文本标记语言,显示数据以及如何更好显示数据。

    XPath 表达式
    • nodename 选取此节点的所有节点
    • / 从根节点选取
    • // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
    • . 选取当前节点
    • .. 选取当前节点的父节点
    • @ 选取属性

    什么是BeautifulSoup4?

    和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

    BeautifulSoup4表达式

    findall() 查找所有节点
    find() 查找单个
    支持css选择器

    获取标签的属性 p['class'] => p.attrs['class']
    获取标签的文本 p.get_text() => p.string

    BeautifulSoup4和XPath的区别

    Beautifulsoup4 要比Xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

    相关文章

      网友评论

        本文标题:XPath和BeautifulSoup4

        本文链接:https://www.haomeiwen.com/subject/lgubyqtx.html