反爬虫记

反爬虫记

作者: 瓜T_T | 来源:发表于2019-07-02 11:13 被阅读0次

反爬虫记
CNN大战验证码
反爬虫到底是怎么一回事？
自学Python爬虫：常见的反爬与反爬处理
网站反爬虫
常见的反爬虫和应对方法
爬虫、反爬虫与突破反爬虫
Python代理IP爬虫的简单使用
常见爬虫/BOT对抗技术介绍（一）
爬虫不尽兴？那再来点反爬虫吧！

没有反爬

各大新闻网站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等，所见即时所得，都是静态加载，唯一的突破点是要梳理不同网站的清洗规则。

有一点点反爬

数字+字母验证码
http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml
突破方法是通过打码平台打码，一般10个几分钱且仅用于登陆所以成本比较低。
动态加载
这个的处理方式有两种：
抓取xhr连接，找到真正的数据地址。
同样是新浪的滚动新闻 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 image.png
这是静态加载的，按F12尝试筛选可以发现真正的数据连接是https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1
image.png
使用浏览器加载(pyppeteer或其他同类产品)

麻烦一点的反爬

ip限制
针对不用登陆的网站，可能会对IP进行访问频率限制，具体网站限制不同，要较长的时间研究网站规则，常见出现大量非200 404错误可能就是被IP限制了。
工程验证码中级
http://dun.163.com/trial/jigsaw拖拉式验证码，有拖拉到指定缺口，拖拉到尽头两种，一般伴随着浏览器驱动检测，所以还需要注入js把检测模块处理掉。
字体css反爬
https://maoyan.com/cinemas?movieId=1218141
image.png
需要下载一个字体模板作为对比，然后这个网站可以打开otf格式的文件浏览http://fontstore.baidu.com/static/editor/index.html
image.png
通过对比方式找到对应数字的代码

比较麻烦的反爬

收发短信认证

image.png

一般注册普通小网站的或可以选择免费的接码平台，像大站的手机验证只能实人验证，操作比较麻烦。
语义点选
http://dun.163.com/trial/picture-click
image.png
大概的处理流程是标注、训练、编码，工程量大，而且工作只有思想可以复制，网站更换套件又得重新处理一遍流程。

反人类的反爬

低效率网站
http://wenshu.court.gov.cn/list/list/?sorttype=1&number=23CD5QME&guid=3cf739bc-a11e-a0b0048e-28ecec3be638&conditions=searchWord+QWJS+++%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2:%E7%8C%A5%E7%90%90
正常网页浏览搜索需要超过2分钟，各种反爬（访问）限制，点一下可以去上个厕所系列。

相关文章

反爬虫记
没有反爬各大新闻网站如http://mil.news.sina.com.cn/roll/index.d....
CNN大战验证码
介绍爬虫江湖，风云再起。自从有了爬虫，也就有了反爬虫；自从有了反爬虫，也就有了反反爬虫。反爬虫界的一大利...
反爬虫到底是怎么一回事？
爬虫与反爬虫永远是相生相克的：当爬虫知道了反爬策略就可以制定反-反爬策略，同样地，网站知道了爬虫的反-反爬策略就可...
自学Python爬虫：常见的反爬与反爬处理
有爬虫就有反爬虫的，双方都是一直在博弈升级中。常见的反爬虫措施有：字体反爬基于用户行为反爬虫基于动态页面的...
网站反爬虫
爬虫和反爬虫作为相生相克的死对头，无论爬虫多厉害，都是能被复杂的反爬虫机制发现，同样的，无论反爬虫机制多么缜...
常见的反爬虫和应对方法
通过Headers 反爬虫：从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...
爬虫、反爬虫与突破反爬虫
【爬虫】批量获取网站数据【反爬虫】防止爬虫批量获取网站数据。反爬需要人力和机器成本。反爬可能将普通用户识别为爬虫...
Python代理IP爬虫的简单使用
前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列...
常见爬虫/BOT对抗技术介绍（一）
爬虫，是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展，也在不断发展更新，...
爬虫不尽兴？那再来点反爬虫吧！
爬虫与反爬虫，这相爱相杀的一对，在现在你会爬虫是不够的，你还得会反爬虫。为 Python 平反首先是爬虫，爬虫...

网友评论

工作生活

本文标题：反爬虫记

本文链接：https://www.haomeiwen.com/subject/bjpacctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

工作生活

关于我们|服务条款|联系我们|反爬虫记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！