反爬虫记

作者: 瓜T_T | 来源:发表于2019-07-02 11:13 被阅读0次

没有反爬

   各大新闻网站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等,所见即时所得,都是静态加载,唯一的突破点是要梳理不同网站的清洗规则。

有一点点反爬

麻烦一点的反爬

  • ip限制
      针对不用登陆的网站,可能会对IP进行访问频率限制,具体网站限制不同,要较长的时间研究网站规则 ,常见出现大量非200 404错误可能就是被IP限制了。
  • 工程验证码中级
    http://dun.163.com/trial/jigsaw拖拉式验证码,有拖拉到指定缺口,拖拉到尽头两种,一般伴随着浏览器驱动检测,所以还需要注入js把检测模块处理掉。
  • 字体css反爬
    https://maoyan.com/cinemas?movieId=1218141
    image.png
    需要下载一个字体模板作为对比,然后这个网站可以打开otf格式的文件浏览http://fontstore.baidu.com/static/editor/index.html
    image.png
    通过对比方式找到对应数字的代码

比较麻烦的反爬

  • 收发短信认证


    image.png

    一般注册普通小网站的或可以选择免费的接码平台,像大站的手机验证只能实人验证,操作比较麻烦。

  • 语义点选
    http://dun.163.com/trial/picture-click
    image.png
    大概的处理流程是标注、训练、编码,工程量大,而且工作只有思想可以复制,网站更换套件又得重新处理一遍流程。

反人类的反爬

相关文章

  • 反爬虫记

    没有反爬    各大新闻网站如http://mil.news.sina.com.cn/roll/index.d....

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

  • 反爬虫到底是怎么一回事?

    爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬策略,同样地,网站知道了爬虫的反-反爬策略就可...

  • 自学Python爬虫:常见的反爬与反爬处理

    有爬虫就有反爬虫的,双方都是一直在博弈升级中。 常见的反爬虫措施有: 字体反爬 基于用户行为反爬虫 基于动态页面的...

  • 网站反爬虫

    爬虫和反爬虫作为相生相克的死对头,无论爬虫多厉害,都是能被复杂的反爬虫机制发现,同样的,无论反爬虫机制多么缜...

  • 常见的反爬虫和应对方法

    通过Headers 反爬虫: 从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...

  • 爬虫、反爬虫与突破反爬虫

    【爬虫】批量获取网站数据 【反爬虫】防止爬虫批量获取网站数据。反爬需要人力和机器成本。反爬可能将普通用户识别为爬虫...

  • Python代理IP爬虫的简单使用

    前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列...

  • 常见爬虫/BOT对抗技术介绍(一)

    爬虫,是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展,也在不断发展更新,...

  • 爬虫不尽兴?那再来点反爬虫吧!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

网友评论

    本文标题:反爬虫记

    本文链接:https://www.haomeiwen.com/subject/bjpacctx.html