用python爬虫方式：刷文章阅读量

作者: Bioconductor | 来源:发表于2016-10-06 21:30 被阅读964次

用python爬虫方式：刷文章阅读量
Python3.6用爬虫方式：刷文章阅读量
python菜鸟开发日记-迷你IP资源代理池的开发
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
Scala爬虫刷博客阅读量
Python爬虫基础之urllib与requests
如何刷微信公众号阅读量，公众号文章刷阅读量多少钱
Python爬虫从0开始学（1）
Python 刷CSDN阅读量
用python写网络爬虫一

利用python爬虫来抓取你要的网页内容，实际上是对该内容的一次阅读，这样可以带来阅读量的增加。这次以爬去CSDN博客为例，其他的网站也许要另外设置。对微信公众号做了实验，发现没有效果，后续研究期待更新分享。

使用python第三方包有：bs4、requests、time
这里间歇时间设置为2秒
采用headers来隐藏，原因是：CSDN设置了防爬虫的措施。采用headers可以避开，成功获取CSDN网页内容。

代码如下：


from bs4 import BeautifulSoup
import requests
import time


url =('http://blog.csdn.net/googdev/article/details/52575079')



headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
for i in xrange(10000):
    time.sleep(2)
    req = requests.get(url,headers =headers )
    soup = BeautifulSoup(req.text,'lxml')
    rank =  soup.select('#blog_rank')
    view = soup.select('.article_manage .link_view .title')
    print view
    print i

若是你想采用这个代码，只需要对headers修改即可。关于如何获取headers可以百度下或谷歌下。方法很简单的，相信你也能学会这个很简单的方法。