爬虫小思路

作者: 还想着吗 | 来源:发表于2018-01-04 00:58 被阅读0次

    最近考试,好久没写代码了

    而实习却是在弄爬虫,虽然还没上测试环境跑过

    但是最近在思考不同的网站验证逻辑该怎麽躲过?

    对于滑动验证可以采用seleniu+phantomJS来模拟

    对于图片验证

    打算采用java调用python来处理(但是部门没有一套自己的python训练框架,估计会采用第三方或者别的部门的接口)

    但是自己来搞也需要有思路

    1.拖动补全图片

    2.数字验证码

    3.根据文字选择合适的图片进行补全

    这些github均有现成的模块可以模仿调用

    而公司的那套框架已经封装了那种爬虫链,也就是爬虫上下文,基本的逻辑也就是单纯地解析,而对于附带的数据应该注意一些反爬的校验数据应该携带,浏览器的代理应该注意,增加容错机制等等

    相关文章

      网友评论

        本文标题:爬虫小思路

        本文链接:https://www.haomeiwen.com/subject/yxelnxtx.html