bs4解析

作者: 迷路了吗_67f1 | 来源:发表于2019-08-04 19:21 被阅读0次

    什么是bs4

    和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。beautifulsoup4比xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

    使用 pip 安装即可:pip install beautifulsoup4
    pip install lxml

    方法

    findall()查找所以节点 findall()查找单个节点
    支持CSS选择器
    获取标签属性写法:p['class']或p.attrs['class']
    获取标签文本:p.get_text()或p.string

    注意:使用beautifulsoup需要依赖其他解析器
    ‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
    ‘HTML.parser’是python内置的解析器

    参数作用:

    name=None ------设置要获取的节点名称
    attrs={} ------是一个字典类型,设置标签的属性
    limit=None-----限制返回的条数
    text(字符串) 查找符合text文本的字符串,并返回。

    相关文章

      网友评论

          本文标题:bs4解析

          本文链接:https://www.haomeiwen.com/subject/zcwydctx.html