最近考试,好久没写代码了
而实习却是在弄爬虫,虽然还没上测试环境跑过
但是最近在思考不同的网站验证逻辑该怎麽躲过?
对于滑动验证可以采用seleniu+phantomJS来模拟
对于图片验证
打算采用java调用python来处理(但是部门没有一套自己的python训练框架,估计会采用第三方或者别的部门的接口)
但是自己来搞也需要有思路
1.拖动补全图片
2.数字验证码
3.根据文字选择合适的图片进行补全
这些github均有现成的模块可以模仿调用
而公司的那套框架已经封装了那种爬虫链,也就是爬虫上下文,基本的逻辑也就是单纯地解析,而对于附带的数据应该注意一些反爬的校验数据应该携带,浏览器的代理应该注意,增加容错机制等等
网友评论