Beautiful Soup库入门

作者: NiceBlueChai | 来源:发表于2017-11-16 00:02 被阅读48次

Beautiful Soup 采坑之旅
python beautiful soup库入门
Python网络爬虫与信息提取（二）
Beautiful Soup库入门
Beautiful Soup库入门
Beautiful Soup 库入门
CH2 网络爬虫提取
Python爬虫——Beautiful Soup
Python读取网页并获取某节点
初试爬虫-爬取图片

Beautiful Soup库解析器

soup = BeautifulSoup('<html>data</html>'，'html.parser')

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib

BeautifulSoup类的基本元素

<p class=“title”>… </p>

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>…</p>的名字是'p'，格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

标签树的遍历

下行遍历
上行遍历
平行遍历

标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

BeautifulSoup类型是标签树的根节点

标签树到的下行遍历

for child in soup.body.children:
print(child)        遍历儿子节点

for child in soup.body.descendants:
print(child)        遍历子孙节点

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

上行遍历

遍历所有先辈节点，包括soup本身，所以要区分辨别

标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

平行遍历

for sibling in soup.a.next_sibling:
print(sibling)          遍历后续节点

for sibling in soup.a.previous_sibling:
print(sibling)          遍历前续节点

bs4库的prettify()方法

.prettify()为HTML文本<>及其内容增加更加'\n'
.prettify()可用于标签，方法：<tag>.prettify()

bs4库的编码
bs4库将任何HTML输入都变成utf‐8编码
Python 3.x默认支持编码是utf‐8,解析无障碍

❤️

网友评论

本文标题：Beautiful Soup库入门

本文链接：https://www.haomeiwen.com/subject/izfamxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Beautiful Soup库入门

Beautiful Soup库解析器

BeautifulSoup类的基本元素

标签树的遍历

bs4库的prettify()方法

相关文章

Beautiful Soup 采坑之旅

python beautiful soup库入门

Python网络爬虫与信息提取（二）

Beautiful Soup库入门

Beautiful Soup库入门

Beautiful Soup 库入门

CH2 网络爬虫提取

Python爬虫——Beautiful Soup

Python读取网页并获取某节点

初试爬虫-爬取图片

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python中文社区

胶水Python

程序员