-
数据的解析方式:
-
正则表达式匹配
-
Xpath
-
Beautiful Soup
-
本文主要介绍Beautiful Soup
-
Beautiful Soup安装
-
使用
-
获取句柄
将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串 或一个文件句柄.后续的一系列操作都是通过句柄操作
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
-
对象的种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所 有对象可以归纳为4种:- Tag
Tag就是可以理解为标签例如 html 、header 、body、div、p等等等
tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with()方法
属性 | 说明 |
name- NavigableString
NavigableString 类来包装tag中的字符串
通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串
如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.- BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name- Comment
网友评论