美文网首页Python爬虫作业python热爱者
你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

作者: 力大士 | 来源:发表于2018-03-13 23:38 被阅读32次

    好了,废话不多说。今天来谈谈关于刷浏览量的问题。虽然这远远的偏离了写博客的初衷,但是了解下这类问题还是不错的,毕竟“技术并不犯法!”。

    大体上来讲,反爬虫会从如下几个层面入手:

    - header 浏览器的请求头

    - User-Agent 用户代理,表明访问源身份的一种方式

    - Referer 访问的目标链接是从哪个链接跳转过来的(做防盗链的话,就可以从它入手)

    - Host 同源地址判断,用它会很有用

    - IP 同一个IP短时多次访问,就很有可能是爬虫,反爬虫会对此做处理。

    - 访问频率:短时多次高并发的访问,基本上就是有问题的访问。

    上面这几个都是常见的反爬虫措施,当然还有更加高深的机制,比如最恶心的验证码(使用tesseract可以处理较为简单的验证码识别),用户行为分析,等等等等。

    实战

    之前我一直是在CSDN上写博客,它的反爬虫机制说实话,做的比较的浅,一方面必要性不是很大,二来做反爬虫经纪上不太划算,估计他们也不愿意在这上面浪费吧。

    所以,在CSDN上刷浏览量还是很随意的,说下我的思路。

    - 代理IP爬取,验证清洗数据,定期更新。

    - 浏览器User-Agent整理,添加访问的随机性。

    - 随即休眠策略,日志处理,错误记录,定时重试等。

    代理IP处理

    Redis工具类

    csdn博文工具类

    Brush工具类

    入口

    相关文章

      网友评论

        本文标题:你的网站有反爬?我就有反反爬!你有"政策”,我有“对策

        本文链接:https://www.haomeiwen.com/subject/azhxqftx.html