BeautifulSoup4的基本使用
序:BeautifulSoup是python解析html非常好用的第三方库!
安装:
pip install beautifulsoup4
基本使用:
from bs4 import BeautifulSoup
html_str = """
<ul>
<li>
<a href="http://www.baidu.com/">百度一下</a>
</li>
<li>合适的话发多少</li>
<li>
<a class="baidu" href="http://www.baidu.com/">不会发生看到</a>
</li>
<li>
<a id="lagou" href="http://www.lagou.com/">lagou</a>
</li>
<li>
<label class="enterText enterArea">列表图预览:</label>
<p class="enterImg">
<img id="previewImage" title='mmm' src="http://www.google.com/logo.png"/>
</p>
<div class="Validform_checktip">范德萨范德萨</div>
</li>
</ul>
"""
soup = BeautifulSoup(html_str,'html.parser')
#html对象 text文本去掉标签
# print(soup)
# print(soup.text)
# <class 'bs4.BeautifulSoup'> 对象类型
# print(type(soup))
# 查找a标签 .text打印a的内容
# print(soup.find('a'))
# print(soup.find('a').text)
# 查找a标签 class=baidu的
# print(soup.find('a',class_='baidu'))
# 查找id=lagou
# print(soup.find(id='lagou'))
# 查找title='mmm' 前边可以写具体找哪个标签
# print(soup.find(title='mmm'))
# find_all 找所有 返回一个list 数组类型
# print(soup.find_all('a'))
# print(soup.find_all('a')[0]) #第一个
all_a = soup.find_all('a')
for item in all_a:
if item:
# print(item.attrs)
print(item.attrs['href']) #dict类型
网友评论