beautifulsoup4 标签选择器

作者: 程序里的小仙女 | 来源:发表于2020-08-27 01:59 被阅读0次

beautifulsoup4 标签选择器
BeautifulSoup4解析器(css选择器)
详解BeautifulSoup4
2018-11-22
学习CSS初识
CSS
Python Beautifulsoup模块使用
css选择器和文本标签
No.7 CSS选择器
2018-08-14 HTML学习CSS选择器与伪类选择器

from bs4 import BeautifulSoup

语法
soup = BeautifulSoup('源码', 'lxml')

html = """
<html><head><title>学习爬虫好开心</title></head>
<body>
(￣ＴＴ￣)笔芯
喵了个猫
<a href="http://example.com/elsie" class="sister" id="link1">汪汪汪，汪星人</a> and
<a href="http://example.com/lacie" class="sister" id="link2">喵喵喵，喵星人</a>
最后变成一锅高汤
...
"""

标签解释器
soup = BeautifulSoup(html, 'lxml')
通过soup对象,标签获取整个标签的内容

通过soup对象,标签.string获取到标签内容
print(soup.title)

print(soup.title.string)
soup.p 获取的是第一个p标签的内容
print(soup.p)
print(soup.a)
print(soup.a.string)

通过soup对象.标签[属性] 或者soup对象.标签.attars[属性] 获取属性的值
print(soup.p['name'])
print(soup.p['class'])
print(soup.p.attrs['name'])
print(soup.p.attrs['class'])

获取兄弟节点
找soup对象.p标签.next_siblings找的是第一个p标签的下面的兄弟节点

print(soup.p.next_siblings)
print(list(soup.p.next_siblings))

soup对象.p标签.previous_siblings找的是第一个p标签的上面的兄弟节点
print(soup.p.previous_siblings)
print(list(soup.p.previous_siblings))

子节点
print(soup.body)
print(list(soup.body.children))

子孙节点 descendants
print('------------------------')
print(list(soup.body.children))
print('------------------------')
print(list(soup.body.descendants))

获取第二个p标签中的a标签的内容
print(list(list(soup.p.next_siblings)[1].children)) print(list(list(soup.p.next_siblings)[1].a))

父节点, 祖先节点
print(soup.a)
print('------------------------')
print(soup.a.parent)
print('------------------------')
print(list(soup.a.parents))

prettify将页面结构补充完整,且解析\n这一类的标签
print(soup.prettify())

网友评论

本文标题：beautifulsoup4 标签选择器

本文链接：https://www.haomeiwen.com/subject/ocelfctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

beautifulsoup4 标签选择器

相关文章