bs4解析

作者: 迷路了吗_67f1 | 来源:发表于2019-08-04 19:21 被阅读0次

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。beautifulsoup4比xpath解析数据要慢，因为beautifulsoup4载入的是整个html文档

使用 pip 安装即可：pip install beautifulsoup4
pip install lxml

findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法：p['class']或p.attrs['class']
获取标签文本：p.get_text()或p.string

注意：使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器，容错性好，可读性强
‘HTML.parser’是python内置的解析器

name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型，设置标签的属性
limit=None-----限制返回的条数
text（字符串）查找符合text文本的字符串，并返回。

网友评论

本文标题：bs4解析

本文链接：https://www.haomeiwen.com/subject/zcwydctx.html

bs4解析