文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。
转自:大数据文摘 | BigDataDigest
编译:罗然、蒋宝尚
如果你集齐算法,业务,计算机知识这三颗龙珠,那么你就可以召唤一个小一点儿的“神龙”了。
但是想要召唤全能“神龙”,除了技术过硬之外,你还需要过硬的独立思考能力和洞察力。
我们如何才能才能拥有独立思考能力呢?不随波逐流!
有着丰富的数据科学经验的SharpestMinds联合创始人Jeremie Harris将从一个比特币买卖的例子为你讲述:随波逐流为什么是一个数据科学英雄最大的挑战!
下文是作者第一人称叙述,enjoy
流行有可能是炒作或者泡沫
我还记得我的兄弟决定出售他的比特币的那一刻。那是2017年,我们在星巴克。一位阿姨正在接近我们,她向我们赠送了一本小册子。 在这些册子的顶部用粗体字写着:“BITCOIN:提前退休之路”。
我很好奇,所以我询问她对加密货币市场的看法,但事实证明她除了比特币之外不知道其他加密货币。
以太坊?
“从来没有听说过。”
莱特币?
“这是比特币的廉价版本,对吧?”
现在,有这么一条经验法则,如果当普通阿姨向你展示最新的科技潮流,那么你可能正在陷入最火热的炒作之中。或者,如果深入思考的话,其中还有“泡沫”。
当然,这不是一个新的发现。每个人都有这样的共识:在投资方面,如果你正在做其他人正在做的事情,你不可能得到任何回报。
但奇怪的是,人们在投资自己时却没有这样的意识。
假设你想成为一名数据科学家。如果你正在做所有标准的“我想成为一名数据科学家”的事情,那么这意味着你得不到梦寐以求的工作。
市场目前充满了初级人才,因此,有抱负的新手不太可能获得高质量的岗位。所以,如果你想变得更优秀,为什么要做别人正在做的事情呢?
巧合使你做了同样的事情
这不是巧合
问题是,大多数人在开始他们的数据科学旅行时都不这么想。我在SharpestMinds(工作已经和数百名有抱负的数据科学家进行了交谈,其中大约80%的人有相同的故事:
1、首先,他们都是按照这条线路学习(Python + sklearn + Pandas + SQL等等)。
2、然后在慕课上找学习资源。
3、读了一些工作要求的描述,并担心着自己没有这个能力。
4、也许换一个慕课继续听课,也许开始通过求职网站申请工作。
5、没有收到求职回馈(最好的情况也只是有屈指可数的面试)
6、感到沮丧,考虑读硕士,申请更多的工作。
7、得出一个起决定作用的点:重复上述第2条到第7条,直到奇迹出现?
如果这种情况发生在你身上,那么你也可能处于一个自我改善的泡沫中:你正在做其他人正在做的事情,但如果期待和别人不一样。你需要做的第一件事就是停下来。
如果你想要高于平均水平,你就不能做平均水平所做的事情。所以为了避免做平均水平的事情,你需要知道平均水平是什么。
以下是一些例子:如果你需要慕课来学习所需知识,那很好。但是不要陷入慕课的螺旋中:慕课几乎是为普通人设计的,所以就算通过大量学习,你也不能成为一个出色的数据科学工作的候选人。同样地,如果你的GitHub上有4或5款Jupyter笔记本,上面有相同的无聊的sk./Pandas/sea./Keras堆栈,不要再重设计一份。
总的来说,规则是:如果事情的下一步非常明显,那么停下吧,因为其他人都在这样做,那是性价比非常低的事情。相反,你需要找到其他人没有做过的事情,并尽快做好这些事情。
我就是我,不一样的烟火
这些异于常人做法的思路是什么?基于我所了解到的,大概有5个:
1.复现论文。如果你是一个深度学习爱好者,这一步是必须要做的。人们通常不这样做是因为它比抓取数据集并使用简单的ANN或XGBoost进行千篇一律的分类更难。在arXiv上找到与你的领域相关的最有趣的论文(理想情况下是一篇相对较新的论文)阅读它并理解它。然后在新数据集上复现它,写一篇关于它的博客文章。
2.别在舒适区域懒惰下来。如果你开始一个新项目,最好是学习一些新的框架/库/工具。 如果你正在构建以df = pd.read_csv(文件名)开头并以f1 = f1_score(y_true,y_pred)结尾的第6个Jupyter笔记本,那么就该改变你的策略了。
3.做点无聊的事情。其他人没有这样做,因为没有人喜欢无聊的事情。但是学习一个合适的Git流程,如何使用Docker,如何使用Flask构建应用程序,以及如何在AWS或Google Cloud上部署模型,这些都是公司迫切希望申请人拥有的技能。
4.做让人感到厌烦的事。1、提议在当地数据科学会议上发表论文。或者,至少参加当地的数据科学会议。2、向LinkedIn上的人发送建议讯息。尽量提供价值(比如“我刚注意到你网站上的拼写错误”)。然后让你的问题尽可能具体(“我很想在我的博客文章中得到你的反馈”)。3、参加大型会议并构建社交网络。4、开始一个研究组。
5.做一些看似疯狂的事情。每个人都使用UCI存储库,或使用一些库存数据集来构建他们的项目。不要那样做,了解如何使用Web抓取库或一些不受重视的API来构建自定义数据集。数据很难获得,公司通常需要依靠他们的工程师为他们提供数据。你应该以作为数据科学痴迷的疯子为目标。
这些步骤中的每一条都是能够使面试官眼前一亮。虽然,它们都不是具有驱魔功效的武器的银色子弹,但它们确实有助于你在数据科学就业市场上获得更大的吸引力,并成为一个更有能力的数据科学家。
在一天结束时,请记住,当你痛苦的学习技能时,你就是在为自己投资。这意味着所有适用于投资的经济原则都适用于此:如果你想要一个出色的结果,你必须做出杰出的事情。
网友评论