今天分享一下如何简单粗暴的解决验证码的办法
背景:
对于一个爬虫开发者来说,反爬虫无疑是一个又爱又恨的对手,两者之间通过键盘的斗争更是一个没有硝烟的战场。
反爬虫有很多措施,在这里说说验证码这一块
论爬虫修养:大家都是混口饭吃,上有老下有小,码农何苦为难码农?爬数据的时候尽可能减少服务器压力,能爬列表页,就不爬详情页
正文:
数据集:百度上找的一个验证码数据集(因为懒得生成),也可以自己生成。
在训练前可以先对图片进行降噪,去掉干扰点,可以用opencv里面的函数滤波器等。这样识别会快点
在这里我就没有去做啦,不然怎么叫粗暴呢(真正:懒, 没时间)
准确率训练到90+我就保存模型停止了,大家可以根据需求设置。看下图
这里是训练中的loss以及accuracy
这里是测试
这个是识别有错误的,毕竟我的GTX950也辛苦算了这么久,再说这个7这么像1呀。莫得了。
话不多说来个网络结构图再说
觉得有点乱的,看看下面的图
划重点:show you code
3个卷积层, 2个全连接层
损失函数,以及优化器
最后就是训练了
来源:
https://blog.csdn.net/weixin_43741442/article/details/84718013
网友评论