美文网首页
反爬虫记录

反爬虫记录

作者: 醉里挑灯看剑422 | 来源:发表于2018-10-16 23:33 被阅读0次

问题

网络黑产猖獗,爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据,以低廉的价格将其出售。这会极大伤害用户隐私,更让用户对产品失去信任,危害绝对不容小觑。对于很多互联网公司,信息甚至是其核心资产。所以无论是为保护用户隐私,亦或自身利益,防爬虫都志在必行。

不那么有效的手段

  1. 针对请求的useragent,refer等做限制。这些字段可以通过抓包工具随意修改,对于有心之人基本无效

比较有效的手段

反爬虫没有确定的方法,但有相对确定的原则:在对正常用户干扰最小的情况下最大限度地提高爬虫成本

需要明确爬虫和人类的区别,并针对这些区别制定方案。通常的做法有(成本从低到高):

后端:

  1. 限制ip、账号、接口频率,尤其是敏感数据接口(用户信息、客户信息、订单、收藏夹等),限制维度要多。
  2. 返回假数据迷惑爬虫
  3. 设置爬虫陷阱,如正常访问看不到的链接
  4. 维护一份账号、ip、代理等的黑名单
  5. 根据具体业务分析访问行为是否合理

前端:

1.前端代码安全的情况下(如app混淆),做相关加密(MD5,nonce防重复攻击),验证请求
2.各种验证码

当然,反爬逻辑越复杂,成本也越高,需要酌情考虑。

参考

https://www.zhihu.com/question/26221432

相关文章

  • 反爬虫记录

    问题 网络黑产猖獗,爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据,以低廉的价格将其出售。这会极大伤害用户...

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

  • 反爬虫到底是怎么一回事?

    爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬策略,同样地,网站知道了爬虫的反-反爬策略就可...

  • 自学Python爬虫:常见的反爬与反爬处理

    有爬虫就有反爬虫的,双方都是一直在博弈升级中。 常见的反爬虫措施有: 字体反爬 基于用户行为反爬虫 基于动态页面的...

  • 网站反爬虫

    爬虫和反爬虫作为相生相克的死对头,无论爬虫多厉害,都是能被复杂的反爬虫机制发现,同样的,无论反爬虫机制多么缜...

  • 常见的反爬虫和应对方法

    通过Headers 反爬虫: 从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...

  • 爬虫、反爬虫与突破反爬虫

    【爬虫】批量获取网站数据 【反爬虫】防止爬虫批量获取网站数据。反爬需要人力和机器成本。反爬可能将普通用户识别为爬虫...

  • Python代理IP爬虫的简单使用

    前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列...

  • 常见爬虫/BOT对抗技术介绍(一)

    爬虫,是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展,也在不断发展更新,...

  • 爬虫不尽兴?那再来点反爬虫吧!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

网友评论

      本文标题:反爬虫记录

      本文链接:https://www.haomeiwen.com/subject/zcnkzftx.html