好了,废话不多说。今天来谈谈关于刷浏览量的问题。虽然这远远的偏离了写博客的初衷,但是了解下这类问题还是不错的,毕竟“技术并不犯法!”。
大体上来讲,反爬虫会从如下几个层面入手:
- header 浏览器的请求头
- User-Agent 用户代理,表明访问源身份的一种方式
- Referer 访问的目标链接是从哪个链接跳转过来的(做防盗链的话,就可以从它入手)
- Host 同源地址判断,用它会很有用
- IP 同一个IP短时多次访问,就很有可能是爬虫,反爬虫会对此做处理。
- 访问频率:短时多次高并发的访问,基本上就是有问题的访问。
上面这几个都是常见的反爬虫措施,当然还有更加高深的机制,比如最恶心的验证码(使用tesseract可以处理较为简单的验证码识别),用户行为分析,等等等等。
实战
之前我一直是在CSDN上写博客,它的反爬虫机制说实话,做的比较的浅,一方面必要性不是很大,二来做反爬虫经纪上不太划算,估计他们也不愿意在这上面浪费吧。
所以,在CSDN上刷浏览量还是很随意的,说下我的思路。
- 代理IP爬取,验证清洗数据,定期更新。
- 浏览器User-Agent整理,添加访问的随机性。
- 随即休眠策略,日志处理,错误记录,定时重试等。
代理IP处理
Redis工具类
csdn博文工具类
Brush工具类
入口
网友评论