美文网首页Python爬虫作业python热爱者
你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

作者: 力大士 | 来源:发表于2018-03-13 23:38 被阅读32次

好了,废话不多说。今天来谈谈关于刷浏览量的问题。虽然这远远的偏离了写博客的初衷,但是了解下这类问题还是不错的,毕竟“技术并不犯法!”。

大体上来讲,反爬虫会从如下几个层面入手:

- header 浏览器的请求头

- User-Agent 用户代理,表明访问源身份的一种方式

- Referer 访问的目标链接是从哪个链接跳转过来的(做防盗链的话,就可以从它入手)

- Host 同源地址判断,用它会很有用

- IP 同一个IP短时多次访问,就很有可能是爬虫,反爬虫会对此做处理。

- 访问频率:短时多次高并发的访问,基本上就是有问题的访问。

上面这几个都是常见的反爬虫措施,当然还有更加高深的机制,比如最恶心的验证码(使用tesseract可以处理较为简单的验证码识别),用户行为分析,等等等等。

实战

之前我一直是在CSDN上写博客,它的反爬虫机制说实话,做的比较的浅,一方面必要性不是很大,二来做反爬虫经纪上不太划算,估计他们也不愿意在这上面浪费吧。

所以,在CSDN上刷浏览量还是很随意的,说下我的思路。

- 代理IP爬取,验证清洗数据,定期更新。

- 浏览器User-Agent整理,添加访问的随机性。

- 随即休眠策略,日志处理,错误记录,定时重试等。

代理IP处理

Redis工具类

csdn博文工具类

Brush工具类

入口

相关文章

网友评论

    本文标题:你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

    本文链接:https://www.haomeiwen.com/subject/azhxqftx.html