美文网首页
爬虫-解析数据

爬虫-解析数据

作者: i骷髅精灵 | 来源:发表于2018-08-13 17:28 被阅读13次
    • 数据的解析方式:

      • 正则表达式匹配
      • Xpath
      • Beautiful Soup

    本文主要介绍Beautiful Soup

    • Beautiful Soup安装

      安装教程

    • 使用
    • 获取句柄

      将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串 或一个文件句柄.后续的一系列操作都是通过句柄操作

    from bs4 import BeautifulSoup
    
    soup = BeautifulSoup(open("index.html"))
    soup = BeautifulSoup("<html>data</html>")
    
    • 对象的种类
      Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所 有对象可以归纳为4种:
      • Tag

      Tag就是可以理解为标签例如 html 、header 、body、div、p等等等
      tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with()方法
      属性 | 说明 |
      name

      • NavigableString

      NavigableString 类来包装tag中的字符串
      通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串
      如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

      • BeautifulSoup

      BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
      BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name

      • Comment

    相关文章

      网友评论

          本文标题:爬虫-解析数据

          本文链接:https://www.haomeiwen.com/subject/rxiubftx.html