美文网首页
BeautifulSoup随笔

BeautifulSoup随笔

作者: Shawceng | 来源:发表于2017-06-04 23:48 被阅读0次

    Learn BeautifulSoup

    BeautifulSoup用法

    引用崔庆才 静觅

    基本语法及用法

    初始化

    soup = BeautifulSoup(html, 'lxml') (or BeautifelSoup(open(filename), 'lxml') )

    四大对象种类

    * Tag
        * 即标签 如soup.[title| head| a| p| 等等]
        * name: soup.name, soup.head.name
        * attrs 
    * NavigableString
        * soup.p.string返回标签内容
    * BeatifulSoup
    * Commit
    

    遍历

    * 直接子节点 .contents .children
    * 所有子孙节点 .descendants
    * 父节点 .parent .parents
    * 兄弟节点 .next_sibling .privious_sibling
    * 节点内容 .string
    * 多个内容 .string .stripped_strings
    

    搜索文档树

    * find_all(name, attrs, recursive, text, **kwargs)
        * name: 标签名为name 
            * 字符串
            * 正则表达式
            * 列表
            * True
            * 方法
        * kwargs: 。。。
        * text: 即查找文本内容
        * limit参数: 限制返回结果数量
        * recursive: 限制搜索节点是否需要子孙节点
    * 另外方法有 find find_parent, find_all_next等等
    

    CSS选择器

    > select方法是很常用的
    
    • 通过标签 soup.select('title')
    • 通过类名 soup.select('.content')
    • 通过id soup.select('#link1')
    • 属性查找 soup.select('div [class="content"]')

    相关文章

      网友评论

          本文标题:BeautifulSoup随笔

          本文链接:https://www.haomeiwen.com/subject/xgwbfxtx.html