美文网首页首页投稿Python中文社区首页推荐
用python爬虫方式:刷文章阅读量

用python爬虫方式:刷文章阅读量

作者: Bioconductor | 来源:发表于2016-10-06 21:30 被阅读964次

    利用python爬虫来抓取你要的网页内容,实际上是对该内容的一次阅读,这样可以带来阅读量的增加。这次以爬去CSDN博客为例,其他的网站也许要另外设置。对微信公众号做了实验,发现没有效果,后续研究期待更新分享。

    使用python第三方包有:bs4、requests、time
    这里间歇时间设置为2秒
    采用headers来隐藏,原因是:CSDN设置了防爬虫的措施。采用headers可以避开,成功获取CSDN网页内容。

    代码如下:

    
    from bs4 import BeautifulSoup
    import requests
    import time
    
    
    url =('http://blog.csdn.net/googdev/article/details/52575079')
    
    
    
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    for i in xrange(10000):
        time.sleep(2)
        req = requests.get(url,headers =headers )
        soup = BeautifulSoup(req.text,'lxml')
        rank =  soup.select('#blog_rank')
        view = soup.select('.article_manage .link_view .title')
        print view
        print i
    

    若是你想采用这个代码,只需要对headers修改即可。关于如何获取headers可以百度下或谷歌下。方法很简单的,相信你也能学会这个很简单的方法。

    相关文章

      网友评论

      本文标题:用python爬虫方式:刷文章阅读量

      本文链接:https://www.haomeiwen.com/subject/cltyyttx.html