（2019-03-20）requests+beautifulso

作者: spiderzzZ | 来源:发表于2019-03-20 17:06 被阅读0次

#requests http库用于获取网页内容

#beautifulsoup 解析库，用于解析网页内容,此外，还有正则表达式也可以解析网页内容

#正则表达式使用re库

#我就选择beautifulsoup库，太多了选则不过来。

#beautifulsoup，是个解析库，需要使用到解析器，如:html.parser、lxml

#而lxml解析器比较好用，就选 beautifulsoup+lxml

#使用方法：soup = Beautifulsoup(html,'lxml')

#print(soup.p.string)

一、想要爬取节点比较简单，即class=star的p节点，想要获得该节点内容，而不含有<p>节点标志。

1.爬取网页格式是tag即标签格式，如果使用find_all命令得到的是列表格式，此时想要获得文本内容不能用“.string”，报错如下：AttributeError: ResultSet object has no attribute 'string'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?

2.所以想要获取节点内容需要在该列表中使用for函数，在依次得到节点.string，如下：

actors = soup.find_all("p",class_='star')

for name in actors:

print(name.string)

结果如下：

网友评论

本文标题：（2019-03-20）requests+beautifulso

本文链接：https://www.haomeiwen.com/subject/xrjtvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

（2019-03-20）requests+beautifulso

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读