python爬虫爬取简书30天热门文章

作者: 果冻_jelly | 来源:发表于2019-03-08 23:23 被阅读20次

小白。使用正则爬取简书文章题目，作者和喜欢数。

结果

一共三页，使用正则进行匹配。

首先是使用

$data = requests.get(eval(finall_url),headers = headers).text$

写入获取网页代码。（这里简书设置了简单的反爬虫机制，因此使用header，进行浏览器模拟）

这里发现简书30天文章点击下一页url不是很规律，为此将5页的网址全部写找出来，分别记为 $url1 url2 url3 url4 url5$

在使用拼接 $for i in range(1,6): finall_url = "url" + str(i)$

最后使用eavl()函数去掉引号。代码如上，获取网页代码中的eval()函数的使用

最后遍历输出写入......

网友评论

本文标题：python爬虫爬取简书30天热门文章

本文链接：https://www.haomeiwen.com/subject/zukjpqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！