反爬风云

作者: 36b510e6e846 | 来源:发表于2019-08-03 13:18 被阅读7次

我曾经进入过一个 1000 人数据挖矿QQ群,群里的 1000 多位“虫师”们集中火力专门研究“如何绕过裁判文书网的爬虫防护策略”。

裁判文书网,是一个记录全国法律案底的政府信息公开网站。

有人讲到,在 4 月该群一度将文书网爬到无法对外服务。

不过,文书网也没有怂,立马更换“反爬服务”修补漏洞,制定全策略拦截这些机器流量,反爬再一次短暂占据上风。

在大数据时代,当数据成为发展的必备筹码时,为获得更多信息资源,免不了刀光剑影。爬虫与反爬虫,在此消彼长的暗处交锋。

爬虫,英文web crawler,意思是网络上面的蜘蛛。这是一个非常形象的名字,我们可以想象互联网就像一张复杂的蜘蛛网,各种网络信息数据是附着在网上的程序,而爬虫就像蜘蛛一样沿着各种路径去爬取所需的数据。

最开始的爬虫来自于搜索引擎,例如谷歌、百度,他们会去各个页面爬取信息以便于用户能更快的索引到自己需要的内容。为了保护隐私信息不被泄露网站主和搜索引擎商定了一个君子协议及 robots.txt文件。网站主会用文件说明那些内容可以被爬取,哪些内容不能,这样在保证用户索引的便携性的同时也保护了网站主敏感信息不被轻易泄露。

但是随着互联网的发展网络上有价值的信息资产越来越多,恶意爬虫趋利而生。

爬虫围城

“互联网上有超过一半的流量是爬虫流量。”据国外权威安全团队 Distill 统计,在互联网上人类流量仅仅占了51.5%。也就是说,一个页面,1万的点击里面,大约5000的点击来自爬虫。

这些数以亿计的爬虫进入互联网中,目的各不相同。

数据盗取

2019年3月28日媒体爆出,招聘大数据公司巧达科被查封,全体员工被警方带走。

37亿简历、10亿通讯录,巧达科技号称掌握了8亿人数据,之后利用这些数据的向企业提供人才流失预警、简历交换共享,获取年利润近2亿。

这37亿简历从哪里来的?答案是,爬虫。

巧达的产品合伙人刘博曾公开表示。“我们的商业模式就是,获取简历、数据变现”。现在看来这句话可以理解为——爬取数据、贩卖数据。

巧达科技这样的大数据公司并不孤立,这些公司手头根本没有大数据。空手是套不到投资的,为了忽悠投资人,他们通过写爬虫,拼命地爬取各个公司的数据。很快他们的数据,增长到可以称为“数据库”,这个时候就就可以出去吹嘘融资啦。

刷量

流量到底值多少钱?一份2019年自媒体报价单给出了答案:网红炸子鸡李佳琦一条抖音广告价格值95万;GQ实验室一则微信公众号头条广告价格在130万。

有需求就会有市场,无数人盯着流量这个大蛋糕。还记得坤坤的上亿转发,引得央视新闻都不得不关注;身为广告主的甲方也经常疑惑“说是几百万粉丝的大V,几万块投个推广,怎么连个互动转发都没有。”

社交平台流量造假,这一现象背后,爬虫功不可没。

爬虫制作的僵尸粉,模仿真人的行为,按照事先安排好的文案和进行评论,点赞转发加关注。轻轻松松获得10万粉丝,上亿转发,还能按时按点互动点赞留言。

刷量也不局限在明星、网红,还有视频、小说网站等等以点击量结算的场景。

2019年7月23日,全国首例「视频网站刷量」案件在上海开庭。爱奇艺发现视频《小林徽因》《二龙湖浩哥之今生是兄弟》出现过访问数量急剧升高后恢复平稳的反常情形。

背后的操作者飞益公司,便是一家专门提供针对爱奇艺、优酷土豆、腾讯等视频网站,提供刷量服务的公司。

在家用爬虫刷刷刷把数据弄上涨,钱就到手了,所谓躺着赚钱,不过如此。

占用资源

如今利用抢票软件买票,已经成为很多人买火车票的习惯。这些软件通过加价、分享、转发助力的方式,帮助你抢票,进而实现收入和用户的增长。

可殊不知这种公司级别「黄牛」行为,给12306造成了很大的负担。为了抢到票,这些抢票软件会通过爬虫不断刷新余票情况。

数据显示,2018年春运期间,12306最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。

这上万、上亿的恶意爬虫流量,带来的最直接后果就是,会占用大量的服务器资源。

若服务器没有储备额外的业务并发,就会对正常业务造成影响,导致用户访问速度变慢,甚至服务商服务直接崩溃。

可以说,网站挂了,一般不是人太多,而是机器流量太大了。

反爬战争

反爬虫战争升级

随着全球最大的两家反爬虫业务公司 Distil 和 ShieldSquare 在今年内被收购,反爬虫的安全威胁如今被越来越多的人意识到。并被认为是继应用层防火墙 WAF 之后的业务层防火墙。

这重视背后,也是越来越难对付的竞争对手。如今,想要做好反爬并不那么容易。

1.算法加持爬虫

随着云服务的兴起,分布式爬虫应用开始流行。这种爬虫拥有大量的 IP、UA、账号、设备等资源,传统方案的灵敏度,数据维度,资源池都受到严重的挑战,没有大数据和机器学习算法的参与,很难从中间寻找到蛛丝马迹。

2.数据采集难度大

反爬虫业务是一个贯穿整个数据链路的检测。(从设备环境、网络传输、应用层协议、业务特性等层面。)传统的反爬虫方案主要集中在资源的一个点上面,而且防御大多与业务结合的太过于紧密,很难实现灵活的策略。最大的问题是前端数据采集聊胜于无,大部分爬虫部署在云端,使用了大量的代理,在没有 GUI 的状态下疯狂的爬取数据,但是我们就是找不到足够的证据,更无从防御。

此外,还有云服务器检测、代理检测、真人识别、协议分析、数据频率、 账号团伙、设备团伙、IP 风险这些业务诉求都对传统的方案提出了重大的挑战,也是反爬虫风控业务面临的新技术挑战。

反爬虫防御现状

市面上已经有少许安全厂商提供反爬虫产品,大家的反爬虫思路有不同的特点。

1.利用 IP 和 UA 防护

这类防护形式多出现在云 WAF 产品上,优点是利用了 WAF 本身的防护特性、策略简单,集成方便;缺点是数据更新时效性低、误封率极高,在国内用户共享 IP 的场景下,很难提准确率和降低漏报率。目前主流的云 WAF 厂商都有提供 IP 和 UA 的防护能力。

2.利用加密 JS 和动态 URL

通过动态刷新 JS 不断变换 URL 的访问路径,提高爬虫的数据接口爬取难度。该方案可以拦截大部分爬虫脚本以及爬虫的开发者。优点是和 WAF 一样部署便捷,技术破解难度大,缺点是对于搜索引擎的杀伤力巨大,威胁防护过于单一。这种防护形式多见于 WEB 查询类的数据服务,包括招聘,政务云等服务网站。

3.利用机器学习产生统一设备指纹

从设备角度标识用户,保证同一个设备无论在什么环境下访问网站都可以产生同一个设备指纹,通过监测设备指纹一系列行为,对该设备指纹进行频率、IP、UA 等资源限制,防止其恶意盗取资源。该方案最大优点是简单有效,准确率高,缺点是几乎没法找到一个稳定的设备指纹,另外对于中国网吧这样统一装机的,该方案无法适用。该方案在国外应用比较广泛,国外几家比较大的爬虫管理服务商的防护服务都有类似的防护特点。

4.通过动态 HTML

通过动态变换 CSS  和 HTML 的内容导致爬虫无法提取到关键数据来进行反爬,诱导爬虫爬取恶意的数据形式,导致无法向下游输送正确的数据,本质上是防御爬虫数据使用场景,该方案多见于内容型的业务,比如微信文章,招聘网站的电话号码等,对于接口类型的资源该方案不适用。这种形式的防护主要应用在原创内容型的网站上面,常见的有微信,淘宝等。

未来的反爬方式

在互联网竞争白热化的今天,越来越多的企业受到了来自恶意爬虫的攻击,这些爬虫盗取企业信息、盗取用户信息、薅羊毛影响了正常的服务运转,典型的企业类型包括交通类查询,航班票务,视频直播,在线教育,政务云,地产信息等行业。随着行业竞争的持续升级,网络版权法推进,越来越多的企业需要反爬虫企业安全服务,但是爬虫威胁所使用的技术手段也在不断升级,传统防护方案已经很难解决应对。

针对日益严峻的爬虫威胁,极验首创了多层智能拦截模型,融合了客户端,服务端,数据平台等风险信息,针对恶意流量提供丰富的对抗形式。

1.多层风险拦击模型

既可以保护 SEO 和正常用户的流量,又可以通过多层风险判别体系拦截恶意有风险的流量,风险判别中综合了客户端,数据链路,网络协议,资产数据等源数据进行综合判别,相对于传统的单因子判别更加的准确可靠,将对用户的误伤降到了最低。

2.轻量的部署形式——旁路探针风险流量检测

相对于市面上爬虫管理类产品,极验首创基于旁路探针的流量分析模型,通过收集定制化的网关日志就可以分析判别出风险流量,该模式对业务友好,在不干扰业务的情况下,提供实时的威胁分析,这种模式的开创得益于我们对于底层流量策略的研究突破和云平台百万级流量实时分析能力。

3.多平台支持

目前针对市面上主流的 web、H5、Android、IOS 客户端都可以支持,真正实现了跨平台一站式解决方案,相对于 WAF 类产品来说,我们获取的数据类型更加丰富,在风控检测方面的优势更加明显,各平台都可以使用弹性部署的形式,可有效在安全和体验之间找到一个完美的平衡点。

4.丰富多样的风险管理台

针对数据风险我们提供了三个维度数据分析,四中不同拦截手段, 9 类可见风险展示,提供站点实时访问概览数据,让用户对网站风险数据有更加清晰、准确的认识,通过多样化的 ACL 控制台,可以对风险拦截策略实时调整,此外还可以提供 API 支持,方便与现有的云安全及数据平台进行联动,发挥更大的数据安全价值。

相关文章

网友评论

    本文标题:反爬风云

    本文链接:https://www.haomeiwen.com/subject/tmdjdctx.html