7步让你get首个数据科学实习

作者: yoku酱 | 来源:发表于2019-03-16 22:40 被阅读12次

由于数据科学的庞大和复杂,如果你没有相关的实习经历的话,成为数据科学家的道路将会更加艰巨和困难。即使是经验丰富的人,实习也是转型进入数据科学领域的一种有效方式。

那么,寻找数据科学实习有哪些技巧?本文总结了数据科学实习中需要了解的关键提示、技巧和资源。

对大数据【数据分析,数据挖掘】概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

1. 熟悉基础的数据科学术语

在开始申请实习之前,第一步是什么?当然是了解数据科学是什么。

为什么你想从事数据科学工作?是因为你喜欢编程、数学、统计还是因为其所提供的机会?或者你是否只是顺应潮流,因为数据科学和机器学习正是大势所趋?

1.1 什么是数据科学?

每天生成的数据量正在呈指数级增长。在过去十年中,数据来源以及收集和存储数据的能力已经取得了极大的进步。公司正在使用各种工具和技术来挖掘数据中的模式并收集有用的见解。简而言之,这就是数据科学的全部意义所在。

 数据为我们所做的一切提供动力。

——Jeff Weiner,领英CEO

数据科学涉及使用各种技术来理解数据并构建预测模型以做出业务决策。数据科学的一些流行应用包括欺诈检测、体育分析、航空公司航线规划等。

因此,如果数据科学是关于从数据中获取洞察力和发现模式,那么数据科学家和统计学家之间有什么区别?

1.2 数据科学家 vs 统计学家

数据科学家和统计学家都使用这些数据从中获得有用的见解。统计学家专注于识别数据中的关系,而数据科学家则致力于使用关系并建立模型来预测未来结果。数据科学家的目标是建立一个高精度的通用模型。

统计学家经常使用R、Excel或MATLAB等工具,因为它们有许多用于数据分析的库。另一方面,数据科学家主要使用Python,Apache Spark等来探索数据和构建模型。下面是一个很酷的信息图,总结了这两个角色之间的差异:

1.3 数据科学领域中的通用术语

机器学习:机器学习是利用算法(如线性回归,逻辑回归,决策树等)从数据中学习并做出明智的决策。例如,根据过去的贷款人的数据来预测他们是否还会申请贷款。

深度学习:深度学习是机器学习的一个子集,旨在模仿人类的决策能力。例如,识别给定图像中的对象,或将图像分类为猫或狗。

自然语言处理(NLP):NLP是数据科学的一个分支,负责分析、理解和从文本数据中获取信息。你在亚马逊上看到的所有评论,或者每天浏览的所有帖子,NLP技术会对其进行分析并理解用户的情绪。NLP是目前数据科学领域最热门的领域之一。

计算机视觉:顾名思义,计算机视觉使机器能够看到和理解周围环境。有没有注意到Facebook如何自动建议图片中的标签?或者自动驾驶汽车如何检测道路上的物体?这些是计算机视觉的主要例子。这是另一个将在未来几年内出现大量工作的领域。

推荐引擎:曾经使用过Flipkart或Amazon的任何人都是推荐引擎的一部分。 这包括分析过去的用户行为以提供相关的建议。“购买此产品的客户也购买了”或“根据您过去的购买情况推荐给您”是推荐工作的示例。

2. 开启你的数据科学之旅

如果你是一个没有行业经验的新生,实习是在数据科学中发挥作用的最佳方式。与经验丰富的人合作,可以为你提供获得行业经验的机会。那么,第一次数据科学实习需要哪些基本技能?

注意:我们将重点关注你的综合能力,而不是典型的数据科学实习面试所需的软技能(如良好的态度,信心等)。

2.1 理解统计学和概率

统计和概率是数据科学所需的基本核心技能。如果没有对这两者的充分理解,你将不会在这个领域(或面试过程中)取得很大进展。从分析数据并做出有价值的推论到理解模型的工作原理,统计和概率的基本概念被整合到数据科学生态系统中。

我们可以利用许多统计技术和概率分布来理解给定数据的结构。以下是你在处理数据科学问题时将要使用的一些重要主题:

1. 描述统计学

  1.1 平均值、中值、众数

  1.2 方差和标准差

2. 概率

  2.1 伯努利试验&概率质量函数

  2.2 中心极限定理

  2.3 正态分布

3. 推论统计

  3.1 置信区间

  3.2 假设检验

  3.3 相关系数

你可以从这里了解到统计和概率这两个领域中的一些常见面试问题。 

2.2 优秀的编程技能(任何编程语言)

是的,你需要了解编程才能成为数据科学家,没有逃避它的后路。AutoML(自动机器学习)正在逐渐被业界接受,但是现在,除了技术过硬的编码技能之外别无选择。

目前用于数据科学的两种最流行的编程工具是Python和R。你必须至少熟悉其中一种。这些都是开源编程语言,并拥有一个日益增长的大型活跃社区。

R主要用于探索性工作,是统计分析任务的首选,它有一个相对较大的统计软件包库。另一方面,Python是机器学习和深度学习任务的首选,它有许多机器学习和深度学习库和包。

如今,Python在业界的欢迎度肯定是更高了。如果你想学习高级机器学习主题,当然还有深度学习,这是一个简单的选择。Python提供的灵活性在这些任务中是无与伦比的。R是一个非常熟练的工具,用于进行探索性分析,包括产生一些非常有洞察力和美学上令人愉悦的情节。

2.3 基本的机器学习算法

如果你已经了解了统计学和概率的基础知识,并且已经掌握了编码技能,那么下一步就是学习机器学习的基础知识。熟悉常见的机器学习算法,如线性回归、逻辑回归、决策树、随机森林、朴素贝叶斯、k近邻和支持向量机(support vector machines)。

试着关注一种算法并理解每种技术背后的直觉。拥有算法的理论知识及其工作方式与能够实现算法同样重要。如果你知道算法的工作原理,那么理解算法的各种参数,调整这些参数以及决定使用哪种算法与哪种类型的数据将会更加容易。 

3. 制作电子档案(在线数据科学档案)

你已经努力学习所有这些新概念。现在应该学习如何展示自己的技能,从而补充所学。

仅统计、编程和机器学习的知识可能不会让你获得实习机会。你需要建立自己的数字形象。展现自己的巨大潜力以及在数据科学之旅中获得的技能。让大家知道你的能力!

在本节中,我们将介绍制作你的电子档案的不同方法。

3.1 负责的项目

学习任何东西的最好方法是将知识付诸实践。与其说“我知道这种技术”,不如将其在项目中展示出来。构建端到端的项目可让你了解数据科学家在日常角色中可能面临的各种可能性和挑战。

你可以查找与自己感兴趣的领域相关的开源项目。如果你是小说的忠实粉丝,就可以用自然语言处理来分析你最喜欢的作家的作品。这表明了你对数据科学的热情,并为你未来的就业提供了优势。

以下是一些实践问题,可以从中获得一些宝贵的实践经验:

· 机器学习

o 大型超市销售 

(https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?utm_source=blog&utm_medium=internshiparticle)

o 贷款预测 

(https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?utm_source=blog&utm_medium=internshiparticle)

· 自然语言处理

o 情绪分析

(https://datahack.analyticsvidhya.com/contest/linguipedia-codefest-natural-language-processing-1/?utm_source=blog&utm_medium=internshiparticle)

o 笑话评级

(https://datahack.analyticsvidhya.com/contest/jester-practice-problem/?utm_source-blog&utm_medium=internshiparticle)

· 推荐引擎

(https://datahack.analyticsvidhya.com/contest/build-a-recommendation-engine-powered-by-ibm-cloud/?utm_source=blog)

· 计算机视觉

o Intel场景分类

(https://datahack.analyticsvidhya.com/contest/practice-problem-intel-scene-classification-challe/?utm_source=blog&utm_medium=internshiparticle)

o 人脸计数挑战

(https://datahack.analyticsvidhya.com/contest/vista-codefest-computer-vision-1/?utm_source=blog&utm_medium=internshiparticle)

3.2 创建GitHub档案

你还应该在此阶段开始构建GitHub配置文件。这基本上是你的数据科学简历,全世界的人都可以查阅。

大多数数据科学招聘人员和访调员都会查看候选人的GitHub资料,以评估他/她的潜力。在处理项目时,可以同时列出GitHub上的问题陈述和代码。以下是一个小清单,你可以在下次将代码添加到GitHub:

· 添加问题陈述

· 制作清晰的自述文件

· 编写清楚的代码

· 在代码中添加评论

· 尽可能多的添加个人/课程项目

· 如果到达一定的级别,则可以参与开源项目 

3.3 写博客

撰写文章是一个推动数据科学事业的大秘诀,这有助于我们以更加清晰明了的方式理解该技术。

各种社区上,大家很乐意与你分享他们的想法和反馈。当你将文章公开发表时,人们经常会分享他们的观点,例如“添加实际与预测的可视化可能会有所帮助”,这可以帮助你进行改进。

Quora可以被视为写博客的另一种选择。将复杂的主题分解为易于理解的单词有助于你掌握主题并精细调整结构化思维技能。

起初,你可以撰写一些基本主题,例如使用thematplotlib库的数据探索,实践问题的方法和解决方案,你完成的MOOC的摘要或注释等。

3.4 创建并优化领英个人资料

LinkedIn是世界上最大的职场网络平台。即使你是一个新人或者仍在读研究生院,你也应该学习使用LinkedIn。

招聘人员经常使用LinkedIn来验证你的个人资料,或在有机会的情况下与你联系。你可以将其视为第二份简历或纸质简历的数字版本。如果你申请实习但个人资料未更新(或不存在),你可能会错过机会。

根据申请的实习优化你的LinkedIn个人资料。更新你过去的经历(如果有的话)、教育水平、所做的项目和兴趣。如果你尚未创建配置文件,请立即执行。你还应该通过与数据科学领域的人员建立联系来开始构建社交网络。

领英里有很多极具影响力的人,他们会提供许多有用的发展建议。所以这一步请务必要做。

4. 你的数据科学简历

应包含(或不应包含)哪些内容?

你的简历基本上是职业生涯的亮点。这是招聘人员/招聘经理看到的第一件事,所以制作完美的简历绝对是开启实习的关键。

即使你拥有实习要求部分列出的所有技能,如果简历未达标,很可能无法接受面试。

你必须,并且绝对必须花费大量时间来创建和完善简历。

那么,在做这件事时要记住哪些关键事项?

确保简历是最新的,并且没有任何拼写错误。检查两次,甚至三次。让同事或朋友从招聘人员的角度对其进行审核。

在创建或更新简历时,请始终牢记这一点:写下你所知道的,知道你写的是什么。

还记得你在大学的第一年做的项目吗?如果是大约在2-3年前,你可能已经不记得细节了,要么对其进行深入它,要么不在简历上添加它。有10个你无法谈论的项目对于招聘人员来讲是危险信号!你所掌握的所有技术技能都是如此。

5. 准备数据科学实习面试

获得数据科学实习的最大挑战无疑是面试过程。鉴于你之前没有此领域的工作经验,招聘人员会看到简历的哪些方面?你应该在简历和实际面试中展示哪些技能?

这是很重要的问题!如何驾驭这些棘手的问题一定会影响你实习的机会。

当然,你将提到正在处理(或正在进行中)的项目。但除此之外,无论来自何种背景,面试官都会热衷于考验你。本节将介绍你需要关注并准备面试的关键事项。

5.1 结构化思维

在复杂的数据科学世界中,构建思想的能力是一项宝贵的技能。面试官会判断你是否有能力将问题陈述分解为更小的步骤。你是怎么做到的,这就是金矿的所在。

对于任何给定的问题陈述,有必要确定最终目标是什么。下一步是了解你提供的数据,并确定达到最终目标所需的流程。所有这一切都发生在有限的时间范围内(毕竟面试官没有一整天的时间了解你)。你是否看到拥有结构化思维心态的重要性?

为了检查你的结构化思维技巧,你会被问到一个问题——目前发送了多少封邮件?或者班加罗尔的道路上有多少辆红色汽车?印度每天售出多少支香烟?

例如,如果想了解上个月信用卡投资组合中的收费突然增加的原因,我们会将其放在类似于以下的结构中:

这些问题都没有固定的答案。那你怎么解决它们呢?首先要明白的是,面试官并不期望得到确切的数字答案。相反,他们试图了解你如何看待问题以及获得最终答案的方法。要求使用笔和纸(或白板)是个好主意,这样你就可以逐步展示自己的想法。

5.2 对于你所申请公司的了解

我们经常听到招聘人员如何在没有阅读面试的工作描述的情况下就过来面试。

在决定申请工作之前,你必须知道公司的工作内容和愿景。别无他法。

我们的建议是多研究公司,了解他们的工作。你觉得自己如何适应?你能直接看到你的技能可以产生的影响吗?你还必须彻底查看职位描述并在面试中提出问题,以了解你对公司的适应性。这将节省你和公司的时间。

建议阅读下面的指南,其中详细列出了准备数据科学面试时可能涵盖的主要话题:

· The Most Comprehensive Data Science & Machine Learning Interview Guide You’ll Ever Need

(https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/?utm_source=blog&utm_medium=internshiparticle)

6. 增加被选中的机会

在本节中,我们为你提供了一些额外的提示和技巧,以提高你被选中的机会。

6.1 高级机器学习

没有什么比看着你自信地回答先进的机器学习问题更能打动面试官了。掌握先进的机器学习知识肯定会给你带来优势。

确保你已经掌握了我们之前讨论过的基本机器学习主题(统计数据,概率,回归,树算法等)。然后,你可以安全地跳转到高级机器学习算法、推荐系统、时间序列预测算法等。

在职业生涯的这个阶段,没有必要详细了解所有算法。相信你会发现3-4种非常有用的技巧,这些需要你好好学习,并在面试中阐述你的想法。你应该对算法及其背后的数学有一个公平的理解。可以根据自己的兴趣选择特定字段,并探索该领域中的各种技术。

举个例子,如果你对时间序列感兴趣,可以开始探索不同的预测技术、平稳性的概念,甚至选择一个关于时间序列的项目并进行研究。或者,如果自然语言处理是你感兴趣的领域,可以了解如何从基于文本的数据中提取特征,可以在文本数据上使用哪些算法等等。 

6.2 参与数据科学竞赛

这为你的简历增添了巨大的优势,增加了实习的机会。完成项目后,证明知识不仅限于书籍。你已经明确尝试将理论学习转化为现实世界的数据集——这是你的好奇心、热情和学习意愿非常高的确定标志。

首先,我们鼓励你参加数据科学竞赛。从AV的DataHack平台或Kaggle上列出的黑客马拉松开始。这些平台提供了模仿真实场景的问题陈述,从而让你对行业有了非常珍贵的感受。

你还可以与来自世界各地的顶级数据科学家竞争(并从中学习)。这可以作为自身进步的良好晴雨表。继续练习,你会惊奇地发现你的排名会上升的如此之快。实践是数据科学之王。

7. 在实习期间会学会什么?

实习可以为你提供哪些教科书、MOOC和视频不能所不能提供的知识?

实践经验。

7.1 如何解决实际项目

在实习期间,你将参与真实的项目。这是非常宝贵的经验。一旦加入,就可能会发现自己已经进去端到端的数据科学生命周期,包括定义问题陈述和构建模型。

如果你之前参加过数据科学竞赛,将对数据科学家遇到的不同挑战有所了解。

但是,这些竞赛中提供的问题陈述和数据集与现实场景非常不同。数据集在行业中是混乱和非结构化的。在构建任何模型之前,需要进行大量的数据清理工作。

事实上,如果70-80%的任务涉及数据清理,请不要感到惊讶。

你将学习如何构造问题陈述,理解解决问题所需的域和数据,然后找出提取数据的来源。下一步是深入研究。了解其他数据科学家为解决类似问题所采取的方法。

这将让你对什么应该运作良好以及什么不值得投入时间有一个清晰的认知。虽然数据科学鼓励进行实验,但你从经理那里获得的创作自由度是有限的。过滤掉你知道不会事先工作的方面。

7.2 讲述数据故事的方式(探索性数据分析)

人们通常花费更多时间来构建模型而不是理解数据。这其实是不行的。

真正理解拥有的数据是非常重要的。数据集中存在很多级别和隐藏方面,我们经常忽略这些级别和隐藏方面来构建模型。这是你在实习期间学到的东西(但应事先做好准备)。

花尽可能多的时间探索数据!绘制图表,找到模式,然后好好钻研,就像它是世界上最好的工作(它真的是!)。尝试了解分布,查找影响目标变量的因素并进行推断。建立假设,将数据可视化,找到见解,最重要的是,与队友讨论发现的问题。

7.3 团队合作

数据科学实习的好处是可以与非常聪明和支持的人合作。当你朝着最终目标努力时,数据科学项目需要同事之间的协作和协调。

在团队中工作的最好的部分是总是有人讨论你的想法(并澄清疑虑)。团队合作不仅可以帮助你建立自己的软技能,还可以磨练技术技能,真是个双赢的组合! 

7.4 在这个领域获得实践经验

当你开始数据科学求职时,很可能会发现大多数公司都要求在域中获得一些经验。你应该了解公司正在处理的问题,并考虑可以做出贡献的方式。与正在从事项目的人讨论想法。

你还应该尝试了解公司中其他人的角色。可以与不同团队的人员进行交流和讨论。例如,与营销团队交谈,了解是否可以考虑解决问题的数据驱动解决方案。充分利用机会,提出相关问题并向团队学习。

对大数据【数据分析,数据挖掘】概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

相关文章

网友评论

    本文标题:7步让你get首个数据科学实习

    本文链接:https://www.haomeiwen.com/subject/zhbemqtx.html