美文网首页Web 前端开发 WEB前端程序开发
涨姿势!资深工程师手把手教你用Python快速破解验证码

涨姿势!资深工程师手把手教你用Python快速破解验证码

作者: web前端04 | 来源:发表于2018-02-06 20:13 被阅读0次

    在我看来,基本上可以不负责任地认为,Python 可以做任何事情。无论是从入门级选手到专业级选手都在做的爬虫,还是 Web 程序开发、桌面程序开发还是科学计算、图像处理,Python 都可以胜任。或许是因为这种万能属性,周围好更多的小伙伴都开始学习 Python。

    那Python 现在到底有多热呢?

    微软在上个月开启了一个针对 Excel 功能的话题,用以收集用户的反馈。随后有用户提议让 Python 成为 Excel 的一种脚本语言,不仅可以作为 VBA 的替代品,而且也可以作为字段函数(= SUM(A1:A2))的替代方案。该提议得到了众多用户的支持,得票支持率高于排名第二的提议的两倍。现在,Python 的这把火已经烧到了程序员的圈子外。根据国务院《新一代人工智能发展规划的通知》,可以想见人工智能教育往低幼渗透的例子只会越来越多。小学生学 Python 是培养编程兴趣和思维,为了你自己的百万年薪和发展前景,或许你才是最该学 Python 的人。

    在这里我还是要推荐下我自己建的web前端开发学习群:731669587,群里都是学web前端开发的,如果你正在学习前端 ,小编欢迎你加入,今天分享的这个案例已经上传到群文件,大家都是软件开发党,不定期分享干货(只有前端软件开发相关的),包括我自己整理的一份2018最新的前端进阶资料和高级开发教程,欢迎进阶中和进想深入前端的小伙伴。

    今天让我们突破这个世界上最流行的WordPress验证代码插件。

    阿德里安没有访问生成验证代码图片的应用程序的源代码。为了破解这个系统,他必须下载数百个示例图像并手动回答它们,以训练他的深度学习系统。

    最好的是,它是开源的!因为我们有生成验证代码的源代码,所以它很容易破解。为了让事情更有挑战性,让我们给自己一个时间限制。我们能在15分钟内破解这个验证系统吗?让我们试试看!

    挑战的开始

    要创建攻击计划,让我们看看插件将生成什么类型的图片。在演示站点上,我们看到了:

    好了,验证图像看起来是四个字母。让我们在PHP源代码中验证这一点:

    是的,它生成四个字母验证码,并使用四种不同的随机组合字体。如我们所见,它从不在代码中使用“o”或“I”,以避免用户混淆。这给了我们总共32个字母和数字,我们可能需要识别它们。没问题!

    我们的工具集

    在进一步讨论之前,让我们讨论一下我们将要用来解决这个问题的工具。

    创建数据集

    为了训练任何机器学习系统,我们都需要训练数据集。解码验证系统,我们需要训练数据如下所示。

    因为我们有WordPress验证代码插件的源代码,所以我们可以对它做一些修改,这样就可以保存10000个验证码和每个映像的正确答案。

    这是我不会给你的代码中唯一的一部分。我们这样做是为了教育,我不希望你真的去黑WordPress网站。不过,我会给你我的最后10000个图像,以便你可以重复我的结果。

    简化

    现在我们有了训练数据,我们可以直接用它来训练神经网络。

    有了足够的训练数据,这种方法粗略,甚至可行,但我们可以使它更容易解决问题。问题越简单,训练数据越少,计算资源消耗越少。毕竟,我们只有15分钟!

    我没有时间去浏览10000个训练图像和手动分为单独的图像在PS图象处理软件。需要几天时间,我只剩下10分钟了。

    每个图像中的字母都是随机放置的,这使得分割图像更加困难。

    幸运的是,我们仍然可以自动执行此操作。在图像处理中,我们经常需要检测具有相同颜色的像素。这些连续像素周围的边界称为等高线。OpenCV有一个内置的findcontours()函数,可以用来检测这些连续的区域。

    然后,我们将图像转换为纯黑白(这称为阈值设置),这样就很容易找到一个连续的区域:

    接下来,我们将使用findcontours OpenCV()检测每个连续的簇包含图像中相同颜色的像素功能。

    然后只需要将每个区域保存为单独的映像文件。因为我们知道每个图像应该包含四个字母,从左到右,我们可以用这些知识来标记字母。只要我们按顺序保存它们,就可以用正确的字母名称保存每个字母图像。

    这意味着我们最终会找到两个字母拼在一起的区域:

    如果我们不处理这个问题,我们最终会造成糟糕的培训数据。我们需要解决这个问题,这样我们就不会小心让机器把这两个字母看成一个字母。

    我们将把比高度高的任何区域的宽度分开,并将其用作两个字母。这是非常粗糙的,但这种处理仍然是可行的,以确定验证码。

    现在我们有一个方法来提取的一封信,让我们对所有的验证码图像运行它。我们的目标是收集每个字母的不同变化。我们可以把每个字母保存在自己的文件夹里。

    从我们的10000个验证图像中提取的一些“W”字母。我总共得到了1147张不同的“W”图像。

    神经网络的创建与训练

    由于我们只需要识别一个字母和一些图像,所以我们不需要一个非常复杂的神经网络体系结构。识别字母比识别复杂的图像更容易,比如猫和狗的照片。

    如果你想知道更多关于卷积神经网络如何工作,为什么他们被用作图像识别是理想的,看看阿德里安的书或我以前的文章。

    现在,我们可以开始训练它了!

    训练数据集经过10次训练后,达到了100%的精度。现在,只要我们认为,我们应该能够自动绕过这个验证码!我们做到了!

    利用训练模型破解验证码

    现在,我们有了一个训练有素的神经网络,用它来破解真正的验证代码是非常简单的。

    或者从命令行

    试试!

    如果你想亲自尝试,你可以在这里得到代码。它包括10000个示例图像和本文中每一步的所有代码。看readme.md文件里面看看如何运行它。

    相关文章

      网友评论

        本文标题:涨姿势!资深工程师手把手教你用Python快速破解验证码

        本文链接:https://www.haomeiwen.com/subject/eeknzxtx.html