美文网首页
BeautifulSoup的使用笔记

BeautifulSoup的使用笔记

作者: 一言不合就跑步 | 来源:发表于2018-10-08 10:04 被阅读0次

1.创建对象

创建对象

soup = BeautifulSoup(html,'lxml')

格式化对象

soup.prettify()

2.对象的四种类型

BeautifulSoup将html转换成树状结构,所有对象可以归纳为4种:

  • Tag

    标签,例如:soup.a/soup.p

    tag有两个重要的属性,name和attrs

    • name就是名字
    • 属性类似于字典,可以写成soup.p.attrs得到一个字典,或者像字典一样取值soup.p['class'],也可以写成soup.p.get['class']
    • 可以对属性进行修改和删除
  • NavigableString

    获取标签之中的内容,可以写成soup.p.string

  • BeautifulSoup

    BeautifulSoup是一个大的Tag

  • Comment

    类似于NavigableString ,只是类型不同

3.遍历文档

目前没有用到,先不看了。

4. 搜索文档树

  • find_all(name,attrs,recursive,text,**kwargs)

    • name

      查找所有tag的name

      字符,正则表达式,列表,方法,布尔
      
    • **kwargs

      传入tag的属性

    • text

      检索文档内容

    • recuisive

      是搜索所有子孙节点还是当前节点

相关文章

网友评论

      本文标题:BeautifulSoup的使用笔记

      本文链接:https://www.haomeiwen.com/subject/jhedaftx.html