前端反爬虫策略

作者: 侯工 | 来源:发表于2018-10-25 17:10 被阅读2次

前言：对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。

一、什么是爬虫和反爬虫

爬虫 —— 使用任何技术手段批量获取网站信息的一种方式，关键在批量。
反爬虫 —— 使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
误伤 —— 在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。
拦截 —— 成功地阻止爬虫访问。通常来说，拦截率越高的策略，误伤率就越高，因此要做权衡。
资源 —— 机器成本与人力成本的总和。

二、反什么样的爬虫

应届毕业生(三月份爬虫)

三月份爬虫通常和毕业生(本科生、硕士、博士等)有关，他们的爬虫简单粗暴，为了让论文有数据支撑，根本不管服务器压力，加上人数不可预测，很容易弄挂站点。

创业小公司

每年新增的创业公司很多，程序开发完后，缺少数据支撑，出于公司生死存亡的考虑，不断爬取数据。

不小心写错了没人去停止的失控小爬虫

像知乎，携程，财经等网站，可能高达60%的访问量是爬虫。你就算直接封杀，也无济于事。他们可能根本爬不到任何数据了，除了http code是200以外，一切都是不对的，但由于托管后无人认领，仍然会依然孜孜不倦地爬取。

成型的商业对手

这是最大的对手，有技术，有钱，要什么有什么，如果和你死磕，你就只能硬着头皮和他死磕。

抽风的搜索引擎

搜索引擎也有抽风的时候，而且一抽风就会导致服务器性能下降，请求量跟网络攻击没有区别。

三、常见反爬虫策略

给大家介绍一个比较简便的爬虫框架 webmagic 趁着周末玩一把（请勿用于非法行为）

世界上没有一个网站，能做到完美地反爬虫。如果页面希望能在用户面前正常展示，同时又不给爬虫机会，就必须要做到识别真人与机器人。因此工程师们做了各种尝试，这些策略大多采用于后端，也是目前比较常规单有效的手段，比如：

User-Agent + Referer检测
账号及Cookie验证
验证码
IP限制频次

而爬虫是可以无限逼近于真人的，比如：

chrome headless或phantomjs来模拟浏览器环境
tesseract识别验证码
代理IP淘宝就能买到

所以我们说，100%的反爬虫策略？不存在的。
更多的是体力活，是个难易程度的问题。

不过作为前端工程师，我们可以增加一下游戏难度，设计出一些很(sang)有(xin)意(bing)思(kuang)的反爬虫策略。

四、前端与反爬虫

1、FONT-FACE拼凑式

例子：猫眼电影

猫眼电影里，对于票房数据，展示的并不是纯粹的数字。页面使用了font-face定义了字符集，并通过unicode去映射展示。也就是说，除去图像识别，必须同时爬取字符集，才能识别出数字。并且，每次刷新页面，字符集的url都是有变化的，无疑更大难度地增加了爬取成本。

2、BACKGROUND拼凑式

例子：美团

与font的策略类似，美团里用到的是background拼凑。数字其实是图片，根据不同的background偏移，显示出不同的字符。

并且不同页面，图片的字符排序也是有区别的。不过理论上只需生成0-9与小数点，为何有重复字符就不是很懂。

页面A：

页面B：

3、字符穿插式

例子：微信公众号文章

某些微信公众号的文章里，穿插了各种迷之字符，并且通过样式把这些字符隐藏掉。
这种方式虽然令人震惊…但其实没有太大的识别与过滤难度，甚至可以做得更好，不过也算是一种脑洞吧。

4、伪元素隐藏式

例子：汽车之家

汽车之家里，把关键的厂商信息，做到了伪元素的content里。
这也是一种思路：爬取网页，必须得解析css，需要拿到伪元素的content，这就提升了爬虫的难度。

5、元素定位覆盖式

例子：去哪儿

还有热爱数学的去哪儿，对于一个4位数字的机票价格，先用四个i标签渲染，再用两个b标签去绝对定位偏移量，覆盖故意展示错误的i标签，最后在视觉上形成正确的价格…

这说明爬虫会解析css还不行，还得会做数学题。

6、IFRAME异步加载式

例子：网易云音乐

网易云音乐页面一打开，html源码里几乎只有一个iframe，并且它的src是空白的：about:blank。接着js开始运行，把整个页面的框架异步塞到了iframe里面…

不过这个方式带来的难度并不大，只是在异步与iframe处理上绕了个弯（或者有其他原因，不完全是基于反爬虫考虑），无论你是用selenium还是phantom，都有API可以拿到iframe里面的content信息。

7、字符分割式

例子：全网代理IP

在一些展示代理IP信息的页面，对于IP的保护也是大费周折。

8、字符集替换式

例子：去哪儿移动侧

同样会欺骗爬虫的还有去哪儿的移动版。
html里明明写的3211，视觉上展示的却是1231。原来他们重新定义了字符集，3与1的顺序刚好调换得来的结果…

疑问相关

1、爬虫是否涉嫌违法？如果是的话，怎么要求赔偿？

爬取的内容商业使用目前更倾向属于违法行为，但是在国内还是个擦边球，难以起诉成功。如果不想被批量爬取，技术才是最后保障。

2、在爬虫与反爬虫的对弈中，谁会胜利？

爬虫与反爬虫的重点都在于批量，没有绝对的胜利方。但是可以确定的是，只要人类能够正常访问的网页，爬虫在具备同等资源的情况下一定是可以抓取到，只是能否短时间内大批量爬取的问题。

3、怎么快速爬取数据？

首先考虑的是用网上各种破解版爬虫软件爬取数据，比如火车头采集器。即能用软件解决的爬取步骤，就没必要写代码实现，因为程序员比软件和服务器等资源金贵。其次考虑的才应该是如何用代码解决软件实现不了的步骤。

4、为什么需要反爬虫？

公司的重要资源被批量爬取，丧失竞争力。
爬虫占总PV比例太高，因为高访问量浪费了太多钱。
爬虫拖垮了站点，严重影响了用户体验。
资源被爬取难以起诉成功，对方可以肆意爬取。

网友评论

时光轴

本文标题：前端反爬虫策略

本文链接：https://www.haomeiwen.com/subject/fxfctqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

前端反爬虫策略

一、什么是爬虫和反爬虫

二、反什么样的爬虫

应届毕业生(三月份爬虫)

创业小公司

不小心写错了没人去停止的失控小爬虫

成型的商业对手

抽风的搜索引擎

三、常见反爬虫策略

给大家介绍一个比较简便的爬虫框架 webmagic 趁着周末玩一把（请勿用于非法行为）

四、前端与反爬虫

1、FONT-FACE拼凑式

2、BACKGROUND拼凑式

3、字符穿插式

4、伪元素隐藏式

5、元素定位覆盖式

6、IFRAME异步加载式

7、字符分割式

8、字符集替换式

疑问相关

1、爬虫是否涉嫌违法？如果是的话，怎么要求赔偿？

2、在爬虫与反爬虫的对弈中，谁会胜利？

3、怎么快速爬取数据？

4、为什么需要反爬虫？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

时光轴

前端反爬虫策略

一、什么是爬虫和反爬虫

二、反什么样的爬虫

应届毕业生(三月份爬虫)

创业小公司

不小心写错了没人去停止的失控小爬虫

成型的商业对手

抽风的搜索引擎

三、常见反爬虫策略

给大家介绍一个比较简便的爬虫框架 webmagic 趁着周末玩一把（请勿用于非法行为）

四、前端与反爬虫

1、FONT-FACE拼凑式

2、BACKGROUND拼凑式

3、字符穿插式

4、伪元素隐藏式

5、元素定位覆盖式

6、IFRAME异步加载式

7、字符分割式

8、字符集替换式

疑问相关

1、爬虫是否涉嫌违法？ 如果是的话，怎么要求赔偿？

2、在爬虫与反爬虫的对弈中，谁会胜利？

3、怎么快速爬取数据？

4、为什么需要反爬虫？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

时光轴

1、爬虫是否涉嫌违法？如果是的话，怎么要求赔偿？