首先安装beautifulsoup: pip install beautifulsoup4
然后引入requests和bs4
import reqests
from bs4 import BeautifulSoup
然后搜索网页
response=requests.get('http://www.zldnn.com')
response
page=BeautifulSoup(response.text,'html.parser')
page.title
page.title.string
寻找所以h3元素
page.find_all('h3')
提取节链接上的文本,
link_section=page.find('a',attrs={'name':'links'})
在使用find和findall时,还可以使用正则表达式,比如:
page.find_all(re.compile('^h(2|3)'))
网友评论