数据科学新人需要知道的13个雷区

作者: yoku酱 | 来源:发表于2019-02-25 15:35 被阅读9次

    引言

    看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。

    然而成为一名数据科学家并不容易。需要拥有解决问题的能力、结构化思维、编码和各种技术技能才能真正获得成功。如果您并非技术或数学背景,那么通过书籍和视频课程来学习是很好的方式。但是大多数这类资源不会教你行业内需要什么样的数据科学家。

    这就是胸怀抱负的数据科学家努力缩小自我教育与实际工作之间差距的原因之一。

    本文将讨论数据科学爱好者常犯的一些错误(包括我自己都曾经犯过),我也会提供一些资源帮助你避开数据科学之旅上的陷阱。

    对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

    01

    只学习理论概念,但不应用

    图片来源:cognitive class-YouTube

    就像我之前提到过的一样,掌握机器学习技术背后的理论是非常好的,但是如果你不去应用它们,它们就仅仅是理论概念。当我开始学习数据科学的时候犯了同样的错误,我学习书本知识和在线课程,但却没有应用它们去解决问题。

    所以当我有机会应用我所学的知识去解决挑战或问题时,几乎一大半我都不记得了!要学的东西太多了,算法、推导、研究论文等等等等。你有很高的几率失去动力然后半途放弃。我本人见证过许许多多想进入这个领域的人都是这样。

    如何避免?

    学习过程中保持理论和实践之间健康的平衡是非常必要的。只要学习了一个概念,请立即Google一下找到可以应用它的数据集或问题。你会发现你比以前更好地吸收了这种概念。

    你必须承认所有东西是不可能一次性学完的。一边练习一边填补空白,将会学到更多东西!

    02

    不了解原理或概念直接进行机器学习

    图片来源:伦敦帝国理工学院 – YouTube

    大部分想成为数据科学家的人是看到了机器学习的相关视频,或一个超级棒的预测模型,抑或是高薪的吸引,然而,想要成为你看到的样子,还需要走很长的路。

    在将技术应用到问题之前,你应该先了解它的工作原理。这将有助于了解算法的工作原理,以及做些什么可以对其进行微调,还可以帮助你构建现有技术。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中,您可能不需要了解高级微积分,但有高级的整体认识肯定是有帮助的。

    如果您有一个好奇的想法,或想要进入研究角色,在开始进行核心机器学习之前,您需要了解的四个关键概念是:

    线性代数

    微积分

    统计

    概率

    如何避免?

    正如房子是一砖一瓦建造的,数据科学家也是所有单个部件的总和。有大量的资源可以帮助学习这些主题。下面列出一些资源,可以帮助您入门:

    数据科学家线性代数综合入门指南

    可汗学院的微积分课程

    https://www.khanacademy.org/math/calculus-home

    通过实例解释数据科学概率的基础知识

    03

    仅依赖认证和学位

    图片来源:CIO.com

    这也是招聘人员的烦恼。自从数据科学变得非常受欢迎以来,到处都有认证和学位。我在LinkedIn上看了一下,至少展示了5张认证的图片。虽然获得认证并不容易,但只依赖认证是一种灾难。

    许许多多的胸怀抱负的数据科学家被大多数在线课程倾倒并且完成学习。如果他们为你的数据科学简历添加了一个独特的价值,那就没问题了。但是招聘人员并不关心这些考试 – 他们更看重你的知识,以及你如何在实际工作中应用。

    这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有业务框架等等,这些都是作为数据科学家所需要了解的事项。只是认证或学位无法认证你这方面的能力。

    如何避免?

    不要误解我的意思。认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其公之于众的时候才有价值。使用真实世界的数据集和做任何分析,都把它们写下来。比如创建自己的博客,在LinkedIn上发布,并征求社区的反馈意见。这表明您愿意学习并且足够灵活,可以征求建议并将其用于您的项目。

    应该对实习的想法持开放态度。实习中你将了解数据科学团队如何工作,这将使您在参加另一次面试时受益。

    如果您正在寻找项目,我们有一个很棒的,按照难度划分的项目列表

    04

    以为机器学习竞赛和实际工作相同

    这是有胸怀抱负的数据科学家进来最大的误解之一。比赛和黑客松为我们提供了干净规整的数据集。你下载它们并处理这些问题。即使那些具有缺失值列的数据集也不需要花费脑细胞 – 只需要查找补充缺失值即可。

    不幸的是,现实世界的项目并不是这样的。会有一个端到端的数据管道,涉及与一群人合作。你几乎总是要处理混乱的脏数据。关于花费70-80%的时间来整理和清洗数据的传说是真的。这是一个令人精疲力竭的工作,你很大可能不喜欢,但它最终会成为例行公事。

    此外,我们将在下一点更详细地介绍,更简单的模型将优先于任何复杂的堆叠集合模型。准确性并不总是最终目标,这是您在工作中将学到的最具对比性的事情之一。

    如何避免?

    讽刺的是,消除误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分两者。这就是社交媒体派上用场的地方 – 与数据科学家联系并询问他们的经验。

    另外,我建议这个Quora问题(链接在下方),来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上取得好成绩非常适合衡量你的学习过程,但是面试官想知道的是你如何优化算法达到效果,而不是提高准确性。了解数据科学项目的工作原理,团队所拥有的不同类型的角色都是什么(从数据工程师到数据架构师),以及在这种意义下的答案。

    Quora

    https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do

    LinkedIn文章,解释了分析模型的标准方法

    https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post

    05

    在领域中对模型准确性的关注

    超过了适用性和可解释性

    图片来源:Design Shack

    如上所述,准确性并非总是业务的目标。当然,一个能够以95%的准确度预测贷款违约的模型是非常好的,但是如果你无法解释模型是如何实现的,哪些特征实现了它,以及你在构建模型时的思路,你的客户会拒绝这个模型。

    你很少会发现在商业应用中使用的深度神经网络。向客户解释清楚神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作是不可能的。首要偏好,并且通常情况下,是永远确保我们能够理解模型背后正在发生的事情。如果您无法判断年龄,家庭成员数量或之前的信用记录是否涉及拒绝贷款申请,该业务将如何运作?

    另一个关键是你的模型是否适合企业现有框架。如果生产环境无法支持,使用10种不同类型的工具和库都会失败。您将不得不采用更简单的方法从头开始重新设计和重新训练模型。

    如何避免?

    避免自己犯这个错误的最佳方法是与业内人士交流。没有比经验更好的老师。选择一个领域(财务,人力资源,营销,销售,运营等),与人沟通了解他们的项目如何运作。

    除此之外,练习制作更简单的模型,然后向非技术人员解释。接着增加模型的复杂性并继续想非技术人员解释,直到你不知道接下来发生了什么为止。这将指点你何时该停止,以及为什么在实际应用中,简单的模型总是被优先考虑。

    06

    在简历中使用了太多的数据科学术语

    如果你曾经这样做过,你会知道我在说什么。如果你的简历现在有这个问题,快去修正!您可能知道很多技术和工具,但只是简单地列出它们会让潜在的招聘经理远离你。

    你的简历是介绍你已经完成的事情以及你是如何做到的 – 而不是简单罗列的事项清单。当招聘人员查看您的简历时,他/她希望以简洁和总括的方式了解您的背景以及您所取得的成就。如果页面的一半充满了了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,没有任何解释,您的简历可能无法通过筛选。

    如何避免?

    消除简历混乱最简单的方法是使用项目符号。仅列出你会用到去完成某些事情的技术(可能是项目或竞赛)。写一篇关于你如何使用它的文章会更有助于招聘人员理解你的想法。

    当您申请入门级的工作时,你的简历需要反映你潜在可以为业务增加的影响。简历将被应用于不同领域中的角色,因此准备一个模板会有所帮助 – 只需更改您对该特定行业的兴趣即可

    Kunal Jain撰写的这篇文章是为数据科学角色准备优秀简历的绝佳资源。

    07

    给予工具和库比业务问题更高的优先级

    图片来源:数据科学实验室

    让我们举个例子来理解为什么这是一个错误。想象一下,你拿到了一个房价数据集,你需要预测房地产的价值。有包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等200多个变量。您很可能不知道某个变量的含义。但您还是构建具有良好准确性的模型,但您不知道的是为什么剔除了这个变量。

    事实证明,该变量是现实场景中的一个关键因素。这是一个灾难性的错误。

    拥有扎实的工具和库知识是非常好的,但它只能到此为止。将这些知识与领域内的业务问题相结合,才是数据科学家真正介入的地方。您应该至少了解您感兴趣(或正在申请)的行业中的基本挑战。

    如何避免?

    这里有很多选择:

    如果您正在申请特定行业的数据科学家,尝试了解该领域的公司如何使用数据科学

    如果可能,搜索特定行业中的数据集并尝试对其进行处理。这将是你简历中一个非常出色的要点、

    对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

    相关文章

      网友评论

        本文标题:数据科学新人需要知道的13个雷区

        本文链接:https://www.haomeiwen.com/subject/qydgyqtx.html