XPath和BeautifulSoup4

XPath和BeautifulSoup4

作者: 姓高名旭升 | 来源:发表于2019-02-24 20:19 被阅读0次

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历

什么是XML?

XML 指可扩展标记语言
XML 是一种标记语言，很类似HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义
XML 被设计为具有自我描述性
XML 是W3C的推荐标准

XML和HTML的区别

XML 是可扩展标记语言，被设计为传输和存储数据，其焦点是数据的内容。
HTML 是超文本标记语言，显示数据以及如何更好显示数据。

XPath 表达式

nodename 选取此节点的所有节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

什么是BeautifulSoup4？

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup4表达式

findall() 查找所有节点
find() 查找单个
支持css选择器

获取标签的属性 p['class'] => p.attrs['class']
获取标签的文本 p.get_text() => p.string

BeautifulSoup4和XPath的区别

Beautifulsoup4 要比Xpath解析数据要慢，因为beautifulsoup4载入的是整个html文档

相关文章

网友评论

本文标题：XPath和BeautifulSoup4

本文链接：https://www.haomeiwen.com/subject/jjgbyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|XPath和BeautifulSoup4|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！