一、BeautifulSoup的简介
- BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。
- 官方中文文档的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
- beautifulsoup4的安装
pip install beautifulsoup4
二、BeautifulSoup使用的简单例子
三、使用BeautifulSoup时指定解析器
- BeautifulSoup进行解析网页需要指定一个可用的解析器,以下是主要几种解析器:
- 由于这个网页解析过程在大规模的爬取中是会影响到整个爬虫系统的速度的,所以推荐使用的是lxml,速度会快很多,而lxml需要单独安装:
pip install lxml
- 举例
soup = BeautifulSoup(html_doc, 'lxml') # 指定lxml解释器,帮助解析网页以达到获取数据
- 提示:如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,所以要指定某一个解析器。
四、网页中的节点对象
1、Tag对象
- 通过BeautifulSoup库对网页进行分析来提取数据主要是针对Tag(标签)对象来进行的。
- Tag对象的方法和属性:
(1)name:每一个Tag对象都有name属性,为标签的名字。
(2)Atributes:在HTML中,Tag可能有多个属性,所以tag属性的取值跟字典相同。
(3)get_text():通过get_text()方法我们可以获取某个Tag(标签)对象下所有的文本内容。
2、Tag对象属性方法的使用
一个节点中是可以包含多个子节点和多个字符串的。例如html节点中包含着head和body节点。
(1)contents和children方法
- 通过contents可以获取某个节点所有的子节点,包括里面的NavigableString对象。contents方法获取的子节点是列表格式。
- 通过children同样的是获取某个节点的所有子节点,但是返回的是一个迭代器,这种方式会比列表格式更加的节省内存。
(2)descendants方法
- contents和children获取的是某个节点的直接子节点,而无法获得子孙节点。
- descendants方法可以获得所有子孙节点,返回的结果跟children一样,需要迭代或者转类型使用。
(3)string和strings方法
- 如果某个节点中只有一个字符串,那么使用string可以正常将其取出。
- 而如果某个节点中有多个字符串的时候,BeautifulSoup就无法确定要取出哪个字符串了,这时候需要使用strings。(使用stripped_strings可以将全是空白的行去掉。)
(4)父节点parent和parents
- 有时我们也需要去获取某个节点的父节点,也就是包裹着当前节点的节点而使用parents则可以获得当前节点递归到顶层的所有父辈元素。
(5)兄弟节点
兄弟节点指的就是父节点相同的节点。(当前节点中所有的父节点都是同一个)
-
next_sibling 和 previous_sibling
-
next_siblings 和 previous_siblings
3、find_all()方法和遍历文档树
BeautifulSoup还提供了搜索整个文档树的方法find_all()。
- 通过name搜索,find_all('b')可以直接查找出整个文档树中所有的b标签,并返回列表。
- 通过属性搜索,我们在搜索的时候一般只有标签名是不够的,因为可能同名的标签很多,那么这时候我们就要通过标签的属性来进行搜索。这时候我们可以通过传递给attrs一个字典参数来搜索属性。
soup.find_all(attrs={'class': 'sister'})
- 通过文本搜索,在find_all()方法中,还可以根据文本内容来进行搜索。
soup.find_all(text="Elsie")
- 限制查找范围为子节点find_all()方法会默认的去所有的子孙节点中搜索,而如果将recursive参数设置为False,则可以将搜索范围限制在直接子节点中。
soup.html.find_all("title", recursive=False)
- 通过正则表达式来筛选查找结果在BeautifulSoup中,也是可以与re模块进行相互配合的,将re.compile编译的对象传入find_all()方法,即可通过正则来进行搜索。
tags = soup.find_all(re.compile("^b"))
4、CSS选择器
-
在BeautifulSoup中,同样也支持使用CSS选择器来进行搜索。使用select(),在其中传入字符串参数,就可以使用CSS选择器的语法来找到tag对象。
-
NavigableString
NavigableString的意思是可以遍历的字符串,一般被标签包裹在其中的的文本就是NavigableString格式。 -
BeautifulSoup对象
BeautifulSoup对象就是解析网页获得的对象 -
Comment
Comment指的是在网页中的注释以及特殊字符串。
网友评论