爬虫和反爬

爬虫和反爬

作者: 星辰大海的碎片 | 来源:发表于2018-12-10 15:49 被阅读0次

爬虫、反爬虫与突破反爬虫
反爬虫到底是怎么一回事？
爬虫和反爬
反反爬虫之js加密参数获取
抖音爬虫教程，python爬虫采集反爬策略
网易互娱：2019秋招 Java开发视频面试
自学Python爬虫：常见的反爬与反爬处理
16.常见的反爬手段和解决思路
爬虫基础系列urllib——构造请求头（3）
24、Python快速开发分布式搜索引擎Scrapy精讲—爬虫和

反爬就是区别人类行为和机器行为

通过访问频率来判断是人还是机器，他们会通过监测你的访问频率来判断，比如一分钟之内的访问次数，但是这个有一个弊端就是局域网，因为同一个局域网对外是一个IP，假设局域网内的人都在访问同一个页面，这就非常容易触发警戒线。解决方法就是降低任务频率，加入几个sleep

通过登陆限制来拒绝一些访问，非公开网站的常规操作，加个cookie就行了

因为机器访问是没有header的，所以有些网站会通过header来做限制，加header就行了

IP限制，这个类似访问频率，但是可能会面临IP永久封杀，但是有代理池，还有高匿代理

还有内容反爬，让内容只有人类才可以看到，比如把内容用图片之类的展示出来或者是直接给附件，但是有OCR

验证码真的是判断人和机器的
Google的reCAPTCHA是一种非常高级的验证码，但是通过模拟浏览器也是可以破解的，还有就是现在有第三方的爬虫插件也是有解决验证码。毕竟现在人工智能真的超火

JavaScript脚本动态获取网站数据
有一些网站（尤其是单页面网站）的内容并不是通过服务器直接返回的，而是服务器只返回一个客户端JavaScript程序，然后JavaScript获取内容。更高级的是，JavaScript在本地计算一个token，然后拿这个token来进行AJAX获取内容。而本地的JavaScript又是经过代码混淆和加密的，这样我们做爬虫的通过看源代码几乎不可能模拟出来这个请求（主要是token不可能破解），但是我们可以从另一个角度：headless的浏览器，也就是我们直接运行这个客户端程序，这可以100%地模拟真实用户！
这样的我没遇到过，这是大佬写的
我遇到的是js去重新请求了一个新的页面，真实的数据隐藏在一个json中

分次加载，分成几次请求原始文件，base64编码的字符流每次请求文件的一部分，然后在客户端组装起来！当然在客户端的代码也是经过加密，这样会避免误伤用户也会过滤一些反爬，但是这个应用范围有限

反爬方式还有很多，毕竟博弈永远都是在不断进步
未完待续。。。

相关文章

爬虫、反爬虫与突破反爬虫
【爬虫】批量获取网站数据【反爬虫】防止爬虫批量获取网站数据。反爬需要人力和机器成本。反爬可能将普通用户识别为爬虫...
反爬虫到底是怎么一回事？
爬虫与反爬虫永远是相生相克的：当爬虫知道了反爬策略就可以制定反-反爬策略，同样地，网站知道了爬虫的反-反爬策略就可...
爬虫和反爬
反爬就是区别人类行为和机器行为通过访问频率来判断是人还是机器，他们会通过监测你的访问频率来判断，比如一分钟之内的...
反反爬虫之js加密参数获取
反爬虫与反反爬虫从爬虫诞生开始就已经存在，反爬策略层出不穷，反反爬也都应对有招。就我目前碰到的反爬，从简单的us...
抖音爬虫教程，python爬虫采集反爬策略
抖音爬虫教程，python爬虫采集反爬策略一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的...
网易互娱：2019秋招 Java开发视频面试
问题说一下爬虫反爬的思路从数据的爬取和使用这两个角度进行反爬虫：增大数据的爬取成本数据访问过于频繁时，增加...
自学Python爬虫：常见的反爬与反爬处理
有爬虫就有反爬虫的，双方都是一直在博弈升级中。常见的反爬虫措施有：字体反爬基于用户行为反爬虫基于动态页面的...
16.常见的反爬手段和解决思路
常见的反爬手段和解决思路学习目标了解服务器反爬的原因了解服务器常反什么样的爬虫了解反爬虫领域常见的一...
爬虫基础系列urllib——构造请求头（3）
爬虫与反爬虫爬虫:自动获取网站数据的程序反爬虫：使用技术手段防止爬虫程序爬取数据反扒机制1 判断用户是否是浏...
24、Python快速开发分布式搜索引擎Scrapy精讲—爬虫和
【百度云搜索，搜各种资料:http://www.81ad.cn】 1、基本概念 2、反爬虫的目的 3、爬虫和反爬的...

网友评论

本文标题：爬虫和反爬

本文链接：https://www.haomeiwen.com/subject/qgnrhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫和反爬|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！