最近在学习爬虫,给大家分享一下。
requests+BeautifulSoup4
首先随便选一个网站,获取url
https://tieba.baidu.com/p/2501933226
查看标签属性
<div id="post_content_36454249621" class="d_post_content j_d_post_content " style="display:;"> 个人的一些随笔,更新速度会比较慢,但不会弃。<br>在这个贴子里我会简要的分析福尔摩斯式的推理,以及推理在生活中除了破案以外的实际应用</div>
第一步获取url,然后就可以提取需要的内容了
用bs4就可以轻松获取各楼发的评论了
pd=bs.find_all('div',class_="d_post_content j_d_post_content")
网友评论