论：爬虫工程师的五种死法

作者: 要减到115的杨蛋蛋 | 来源:发表于2019-03-04 16:17 被阅读0次

一位爬虫工程师的自白：

当兴趣变成职业时，你对它的爱恨只会越来越鲜明。

我爱爬虫，因为是它使我进入了互联网行业，让我在上海立足。我恨爬虫，它的天花板太低了，后期非常乏力。

做了大半年的爬虫工程师，给大家总结总结爬虫工程师的四种死法。

一、学习能力不强

爬虫的入门基础很简单，首先学习 Python 的基础语法，然后掌握 request、xpath、bs4 等常用的爬虫库。通过简单的网站爬取，快速掌握大致的爬虫流程：分析网站请求、发生请求、解析数据、存储数据。

再进阶一点，学一些简单的反爬措施，例如添加请求头、添加 ip 代理、建立 cookie 池等，或者学习下 scrapy 框架。用 scrapy 框架写个完整的爬虫项目，基本上就可以找到一份满意的工作了。

基本上现在大部分的培训机构采用的都像我上面所说的方法，但这样培训出来的人基本上对于爬虫的学习能力都不太强。

每个公司根据自身业务的不同，所使用的框架都会有所调整。比如使用 Kafaka 中间件来发生消息、用 Mongodb 来存储数据、用 Redis 来缓存一些消息、用 Fildder 来抓包等等。在实际的业务过程中，会遭遇很多没有学过的东西。

这时候，你的技能树就不太够用了，如果学习能力不强，在工作过程只会越来越吃力，从而被辞退。

赶不上技术的迭代，一卒。

二、花样繁多的验证码

判断一个爬虫工程师的能力，要看他的反爬能力。爬虫工作最难的部分就是在破解反爬上，而现在主流的反爬手段就是验证码。

但现在的验证码越来越变态，什么样的形式都有。比如汉字点击，再难点就是滑块验证码，最变态就是 12306 的验证码，人工手点还不一定正常。甚至有些网站还玩双重验证，你好容易过了图形验证码，它还有一个短信验证。

防不胜防的验证码，二卒。

三、 js知识缺乏

如果你没有学过js，那么爬虫就会有新的挑战。

高端的爬虫大神，一般都是js大神。所以如果你真的想在爬虫上有所发展，那么我建议你可以去深入学习js。

不懂 js，三卒。

四、网站改版

上面四步你都弄明白了，但没过一阵你发现对方网站改版了，本来正常的代码，也全部完了。

好不容易你把网站的请求逻辑给整明白，该破解的 js 代码也破解了，该写的解析函数也写了，爬虫也正常的运行起来了。但没过几天你发现对方的网站改版了！原本所有可以正常运行的代码，全部出错了。。。

网站改版，四卒。

网友评论

本文标题：论：爬虫工程师的五种死法

本文链接：https://www.haomeiwen.com/subject/biyiuqtx.html

论：爬虫工程师的五种死法