美文网首页我的大学散文成长励志
python爬虫爬取简书30天热门文章

python爬虫爬取简书30天热门文章

作者: 果冻_jelly | 来源:发表于2019-03-08 23:23 被阅读20次

    小白。使用正则爬取简书文章题目,作者和喜欢数。

    结果 结果

    一共三页,使用正则进行匹配。

    首先是使用

    data = requests.get(eval(finall_url),headers = headers).text

    写入获取网页代码。(这里简书设置了简单的反爬虫机制,因此使用header,进行浏览器模拟)

    这里发现简书30天文章点击下一页url不是很规律,为此将5页的网址全部写找出来,分别记为url1 url2 url3 url4 url5

    在使用拼接for i in range(1,6):
   
 finall_url = "url" + str(i)

    最后使用eavl()函数去掉引号。代码如上,获取网页代码中的eval()函数的使用

    最后遍历输出写入......

    相关文章

      网友评论

        本文标题:python爬虫爬取简书30天热门文章

        本文链接:https://www.haomeiwen.com/subject/zukjpqtx.html