数据科学家应该知道很多 - 机器学习,计算机科学,统计学,数学,数据可视化,通信和深度学习。想要受雇主要求的数据科学家应如何花费他们的学习预算?
我阅读了许多工作列表和调查,以找到最常见的技能。管理层之类的术语 没有进行比较,因为它们可以在工作清单中的许多不同背景下使用。
所有搜索都是通过“数据科学家”“[关键字]”为美国进行的 。使用精确匹配搜索减少了结果数量。但是,这种方法确保结果与数据科学家的位置相关,并且类似地影响所有搜索项。
AngelList提供了数据科学家列表而不是职位数量的公司数量。我从两个分析中排除了AngelList,因为它的搜索算法似乎作为 OR 类型的逻辑搜索运行,而无法将其更改为 AND。AngelList可以正常工作,如果你正在寻找 “数据科学家”“TensorFlow” ,它只能在数据科学家的位置找到,但如果你的关键词是“ 数据科学家”“react.js”, 它会为那些公司提供太多的列表非数据科学家的工作列表。
Glassdoor 也被排除在我的分析之外。该网站表示,它 在美国拥有26,263个 “数据科学家”工作岗位,但它将向我展示不超过900个工作岗位。此外,它似乎不太可能拥有超过任何其他主要平台的数据科学家工作列表数量的三倍。
最终分析包括在LinkedIn上有超过400个一般技能列表和200多个特定技术列表的术语。当然有一些交叉发布。结果将记录在此 Google表格中。
我下载了.csv文件并将它们导入JupyterLab。然后,我计算出事件的百分比,并在工作列表网站上对它们进行平均。
我还将软件结果与 2017年上半年的数据科学家职位列表的 Glassdoor研究进行了比较。结合 KDNuggets的使用调查信息,似乎有些技能变得越来越重要,而其他技能正在失去重要性。我们稍后会谈到这些。
见我Kaggle内核的交互式图表和额外的分析 在这里。我使用Plotly进行可视化。在撰写本文时,使用Plotly和JupyterLab进行一些争论 - 说明是在我的Kaggle内核和 Plotly的文档的最后。
一般技能
这是雇主寻求的最常见的一般数据科学家技能图表。

结果表明,分析和机器学习是数据科学家工作的核心。从数据中收集见解是数据科学的主要功能。机器学习就是创建预测性能的系统,而且非常需要。
数据科学需要统计学和计算机科学技能 - 这并不奇怪。统计学,计算机科学和数学也是大学专业,这可能有助于他们的频率。
有趣的是,近一半的工作清单中提到了沟通。数据科学家需要能够传达见解并与他人合作。
人工智能和深度学习并不像其他一些术语那样经常出现。但是,它们是机器学习的子集。深度学习被用于越来越多的机器学习任务,其他算法以前用于此。例如,针对大多数自然语言处理问题的最佳机器学习算法现在是深度学习算法。我希望未来能够更明确地寻求深度学习技能,并且机器学习将成为深度学习的代名词。
雇主在寻找数据科学家的哪些特定软件工具?让我们接下来解决这个问题。
Python 是最受欢迎的语言。这种开源语言的普及已被广泛观察到。它初学者友好,有许多支持资源。绝大多数新数据科学工具都与之兼容。Python是数据科学家的主要语言。
R与Python相差不远。它曾经是数据科学的主要语言。我很惊讶地看到它的需求仍然存在。这种开源语言的根源在于统计数据,它仍然非常受统计学家的欢迎。
Python或R几乎是每个数据科学家的必备条件。
SQL 也有很高的需求。SQL代表结构化查询语言,是与关系数据库交互的主要方式。SQL在数据科学领域有时会被忽视,但如果你计划进入就业市场,这是一项值得展示的技能。
接下来是 Hadoop 和 Spark,它们都是Apache的大数据开源工具。
Apache Hadoop是一个开源软件平台,用于分布式存储和分布式处理由商用硬件构建的计算机集群上的超大型数据集。- 来源。
Apache Spark是一种快速的内存数据处理引擎,具有优雅且富有表现力的开发API,允许数据工作者有效地执行需要快速迭代访问数据集的流,机器学习或SQL工作负载。- 小号乌尔斯河。
这些工具在Medium和教程中的编写量远远低于其他工具。我预计,与Python,R和SQL相比,很少有求职者具备这些技能。如果您已经或可以获得Hadoop和Spark的经验,它应该会让您在竞争中获得成功。
然后来 Java 和 SAS。我惊讶地发现这些语言和它们一样高。两者都有大公司,至少有一些免费产品。Java和SAS通常在数据科学界很少受到关注。
生物:杰夫黑尔是一位经验丰富的企业家,曾为多家公司管理技术,运营和财务。目前,杰夫将他对数据驱动决策的热情转变为数据科学家的职业生涯。他对机器学习,通信和数据分析感到兴奋。
Tableau 是下一个需求。该分析平台和可视化工具功能强大,易于使用且越来越受欢迎。它有一个免费的公共版本,但如果你想保持你的数据私密,将花费你的钱。
如果你不熟悉Tableau,那么绝对值得 在Udemy上快速上课,例如 Tableau 10 AZ。我没有得到这个建议的委托 - 我刚刚参加了这个课程并发现它很有价值。
下面的图表显示了最需要的语言,框架和其他数据科学软件工具的更大列表。

历史比较
GlassDoor 在其网站上对2017年1月至2017年7月期间数据科学家的10种最常见的软件技能进行了 分析。这里比较了这些术语在他们的网站上出现的频率与LinkedIn,Indeed,SimplyHired和Monster在2018年10月的平均值相比。

结果非常相似。我的分析和GlassDoor都发现Python,R和SQL是最受欢迎的。我们还发现了相同的九大技术技能,尽管订单略有不同。
结果表明,与2017年上半年相比,R,Hadoop,Java,SAS和MatLab的需求量减少,而Tableau的需求量更大。考虑到KDnuggets开发人员调查等来源的补充结果,这是我所期望的 。在那里,R,Hadoop,Java和SAS都显示出明显的多年下降使用趋势,Tableau显示出明显的上升趋势。
当雇主正在寻找具有Python技能的数据科学家时,他们也可能期望候选人知道常见的python数据科学库:numpy,pandas,scikit-learn和matplotlib。如果您正在学习这套工具,我建议您使用以下资源:
-
DataCamp和 DataQuest - 它们都是价格合理的在线SaaS数据科学教育产品,您可以在编码时学习。他们都教授了许多技术工具。
-
Data School拥有各种资源,包括一组很好的 YouTube视频, 解释数据科学概念。
-
McKinney用于数据分析的 Python。本书由熊猫图书馆的主要作者专注于熊猫,还讨论了数据科学的基本python,numpy和scikit-learn功能。
-
由Müller和Guido介绍的Python机器学习。Müller是scikit-learn的主要维护者。这是一本用scikit-learn学习机器学习的好书。
如果您正在寻找跳进深学习,我建议从 Keras 或 FastAI 在继续之前 TensorFlow 或 PyTorch。Chollet的 Python深度学习 是学习Keras的绝佳资源。
除了这些建议,我建议你了解你感兴趣的内容,尽管在决定如何分配你的学习时间时有很多考虑因素。

如果你正在通过在线门户网站寻找数据科学家的工作,我建议你从LinkedIn开始 - 它始终拥有最多的结果。
如果你正在寻找工作或在求职网站上发帖,关键词很重要。“ 数据科学 ”的回报率几乎是“ 数据科学家 ”在每个站点上所做结果的3倍。但是,如果你正在严格地寻找数据科学家的工作,那么你最好还是寻找“ 数据科学家”。
无论你在哪里,我建议你制作一个在线作品集,以展示你对尽可能多的按需技能领域的熟练程度。我还建议你的LinkedIn个人资料展示你的技能。
网友评论