爬虫-反扒策略

作者: 光小月 | 来源:发表于2019-06-02 10:08 被阅读67次

现有的反扒策略:

0. 检测浏览器header, User-Agent
1. ip 封禁
2. 图片验证码
3. 滑块
4. JS轨迹
5. 证书加密
6. AI识别
7. 前端反调试

前端反调试

这篇文章介绍一下前端反调试,

扒某网站的前端代码,打开控制台要看Network,结果发现他们页面一打开控制台就不断的debugger,100ms一次,很影响看页面内容。

问题分析

每次在断点处停下来的时候页面都会跳到source这个tab页面,也能够看到他的debugger的代码,其实他的实现很简单,只有这一行代码

(function() {var a = new Date(); debugger; return new Date() - a > 100;}())

虽然简单,但是却很有效。
不停地打断你,页面跳到source页面,阻止你看他代码不
断的产生不可回收的对象,占据你的内存,造成内存泄漏,没过多久浏览器就会卡顿

问题解决

这个问题解决起来还是蛮简单的,问题解决只需要一句话:禁止断点。
而对应的操作是在Chrome控制台的Source Tab页点击Deactivate breakpoints按钮或者按下Ctrl + f8(下图)。

其他的参考:
突破前端反调试--阻止页面不断debugger

PS: 若你觉得可以、还行、过得去、甚至不太差的话,可以“关注或点赞”一下,就此谢过!

相关文章

  • 爬虫-反扒策略

    现有的反扒策略: 前端反调试 这篇文章介绍一下前端反调试, 扒某网站的前端代码,打开控制台要看Network,结果...

  • 爬虫基础系列urllib——构造请求头(3)

    爬虫与反爬虫 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 反扒机制1 判断用户是否是浏...

  • Python爬虫-破解JS加密的Cookie

    原文出处 jhao 现在很多网站为了防范爬虫,做了很多反扒处理,同样对于开发者来讲,上有政策,下有对策,于是今天来...

  • 爬虫基础系列urllib——代理IP(6)

    代理ip 反爬虫机制2,如果一直用同一个ip进行爬虫,反扒机制将禁止,所以通过伪装ip以及其他信息来访问网站。 i...

  • 反爬虫到底是怎么一回事?

    爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬策略,同样地,网站知道了爬虫的反-反爬策略就可...

  • python爬虫爬取可可英语官网----四级翻译

    爬虫基础介绍: 1.url:某个网页的网址 2.带反扒机制的网页,加个header 3.模拟浏览器进入网页: 4....

  • 反爬虫策略

    搜寻了大多数资料,反爬虫策略只是为了让爬虫更复杂,更麻烦,目前貌似没有能一劳永逸的方案。 以下的策略只是增加爬虫的...

  • 反爬虫策略

    最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 那问题来了, 如...

  • 常见的反爬虫和应对方法

    通过Headers 反爬虫: 从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...

  • 二 搜索引擎的下载系统

    1 爬虫:Crawler 中文:爬虫或者蜘蛛 爬虫演进过程:逐渐多策略,负载均衡及大规模增量抓取等方向发展 2 万...

网友评论

    本文标题:爬虫-反扒策略

    本文链接:https://www.haomeiwen.com/subject/lkotxctx.html