#requests http库用于获取网页内容
#beautifulsoup 解析库,用于解析网页内容,此外,还有正则表达式 也可以解析网页内容
#正则表达式使用re库
#我就选择beautifulsoup库,太多了选则不过来。
#beautifulsoup,是个解析库,需要使用到解析器,如:html.parser、lxml
#而lxml解析器比较好用,就选 beautifulsoup+lxml
#使用方法:soup = Beautifulsoup(html,'lxml')
#print(soup.p.string)
一、想要爬取节点比较简单,即class=star的p节点,想要获得该节点内容,而不含有<p>节点标志。
1.爬取网页格式是tag即标签格式,如果使用find_all命令得到的是列表格式,此时想要获得文本内容不能用“.string”,报错如下:AttributeError: ResultSet object has no attribute 'string'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?
2.所以想要获取节点内容需要在该列表中使用for函数,在依次得到节点.string,如下:
actors = soup.find_all("p",class_='star')
for name in actors:
print(name.string)
结果如下:
网友评论