反爬虫记录

反爬虫记录

作者: 醉里挑灯看剑422 | 来源:发表于2018-10-16 23:33 被阅读0次

反爬虫记录
CNN大战验证码
反爬虫到底是怎么一回事？
自学Python爬虫：常见的反爬与反爬处理
网站反爬虫
常见的反爬虫和应对方法
爬虫、反爬虫与突破反爬虫
Python代理IP爬虫的简单使用
常见爬虫/BOT对抗技术介绍（一）
爬虫不尽兴？那再来点反爬虫吧！

问题

网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户隐私，更让用户对产品失去信任，危害绝对不容小觑。对于很多互联网公司，信息甚至是其核心资产。所以无论是为保护用户隐私，亦或自身利益，防爬虫都志在必行。

不那么有效的手段

针对请求的useragent,refer等做限制。这些字段可以通过抓包工具随意修改，对于有心之人基本无效

比较有效的手段

反爬虫没有确定的方法，但有相对确定的原则:在对正常用户干扰最小的情况下最大限度地提高爬虫成本

需要明确爬虫和人类的区别，并针对这些区别制定方案。通常的做法有（成本从低到高）：

后端：

限制ip、账号、接口频率，尤其是敏感数据接口（用户信息、客户信息、订单、收藏夹等），限制维度要多。
返回假数据迷惑爬虫
设置爬虫陷阱，如正常访问看不到的链接
维护一份账号、ip、代理等的黑名单
根据具体业务分析访问行为是否合理

前端：

1.前端代码安全的情况下（如app混淆），做相关加密（MD5，nonce防重复攻击），验证请求
2.各种验证码

当然，反爬逻辑越复杂，成本也越高，需要酌情考虑。

参考

https://www.zhihu.com/question/26221432

相关文章

反爬虫记录
问题网络黑产猖獗，爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据，以低廉的价格将其出售。这会极大伤害用户...
CNN大战验证码
介绍爬虫江湖，风云再起。自从有了爬虫，也就有了反爬虫；自从有了反爬虫，也就有了反反爬虫。反爬虫界的一大利...
反爬虫到底是怎么一回事？
爬虫与反爬虫永远是相生相克的：当爬虫知道了反爬策略就可以制定反-反爬策略，同样地，网站知道了爬虫的反-反爬策略就可...
自学Python爬虫：常见的反爬与反爬处理
有爬虫就有反爬虫的，双方都是一直在博弈升级中。常见的反爬虫措施有：字体反爬基于用户行为反爬虫基于动态页面的...
网站反爬虫
爬虫和反爬虫作为相生相克的死对头，无论爬虫多厉害，都是能被复杂的反爬虫机制发现，同样的，无论反爬虫机制多么缜...
常见的反爬虫和应对方法
通过Headers 反爬虫：从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...
爬虫、反爬虫与突破反爬虫
【爬虫】批量获取网站数据【反爬虫】防止爬虫批量获取网站数据。反爬需要人力和机器成本。反爬可能将普通用户识别为爬虫...
Python代理IP爬虫的简单使用
前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列...
常见爬虫/BOT对抗技术介绍（一）
爬虫，是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展，也在不断发展更新，...
爬虫不尽兴？那再来点反爬虫吧！
爬虫与反爬虫，这相爱相杀的一对，在现在你会爬虫是不够的，你还得会反爬虫。为 Python 平反首先是爬虫，爬虫...

网友评论

本文标题：反爬虫记录

本文链接：https://www.haomeiwen.com/subject/zcnkzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|反爬虫记录|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！