数据分析可以改变企业的运营方式。如今公司拥有大量数据,数据分析可以帮助公司向客户提供有价值的产品和服务。
成为数据科学家并非易事。需要具备解决问题的能力,结构化思维,编码和各种技术技能,才能真正地成功。如果你并非来自技术和数学领域,那么你的大部分知识都是通过书籍和视频课程获得的。这些资源大部分并没有教你在这个行业中,哪些是数据科学家真正用得着的。
![](https://img.haomeiwen.com/i5877922/2131a14140196e8b.jpg)
在本文中,我讨论了业余数据科学家容易犯的一些重大错误(我自己也犯过)。我还提出了应该采取的措施,以避免工作时落入陷阱。
1.在没有实际应用的情况下,花费大量时间在理论上
许多初学者陷入了在理论上花费太多时间的陷阱,无论是与数学相关的(线性代数、统计学等),还是与机器学习相关的(算法、推导等)。
掌握机器学习技术背后的理论是很好的。但是如果你不应用它们,它们就只是理论。当人们刚开始学习时,他们会看大量的书籍和在线课程,但很少有机会把理论应用到解决实际问题上。
一开始,每当遇到问题,有机会把所学的东西运用到实践时,我有一半的东西都记不住。这都是因为我在理论上花的时间太多了,很少有时间去解决实际问题。
如何避免这个错误?
更好地理解你所学的东西。理论和实践之间应该有适当的平衡,这并不是一个新概念。浏览器是查找不同数据集,以进行练习的最佳工具。以下是一些你可以拿来练习的数据集(由易到难)。
葡萄酒质量数据集
链接:
https://archive.ics.uci.edu/ml/datasets/Wine+Quality
高度和重量数据集
链接:
http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
人类活动数据集
链接:
http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
歌曲年度预测数据集
链接:
http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD
电影镜头数据集
链接:
https://grouplens.org/datasets/movielens/1m/
VoxCeleb数据集
链接:
http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
芝加哥犯罪数据集
链接:
https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
2.在没有做好知识准备之前,编写太多的算法
直接进入数据科学的深层领域,是大多数有抱负的数据科学家的常见做法,这也导致他们缺乏对基本知识的了解,最终面临解决实际问题的困难。
如果你从头开始编写算法代码,那你的目的是学习,而不是解决实际问题。一开始,你不需要编写每个算法。
如何避免这个错误?
在进行深入学习之前,你需要弄清楚四个基本概念,这四个概念分别是线性代数、统计学、概率和微积分。数据科学是所有这些学科的总和。在对这四个概念没有清晰的了解之前,不要深入数据科学的核心。你可以在网上找到大量的课程来学习这些概念,以下是我列出的一些可以帮助你的资源。
统计与R
链接:
https://www.edx.org/course/statistics-r-harvardx-ph525-1x-1
使用Python的概率和统计
链接:
https://www.edx.org/course/statistics-and-probability-in-data-science-using-python
微积分课程
链接:
https://www.khanacademy.org/math/calculus-home
数据介绍
链接:
https://www.coursera.org/learn/probability-intro
数据科学的统计思维
链接:
https://www.edx.org/course/statistical-thinking-for-data-science-and-analytics
3.一口吃个大胖子
![](https://img.haomeiwen.com/i5877922/6f0d2651c35efe2f.gif)
正如他们所说的,“罗马不是一天建成的”,数据科学也是如此。我知道你想建造未来的技术,自动驾驶汽车、机器人等,像这样的技术需要深度学习和自然语言处理等知识。在应用这些知识之前,你必须首先掌握机器学习的基础。
如何避免这个错误?
首先,掌握“经典”机器学习的技术和算法,它是高级主题的构建模块。人们通常只练习2到3个问题,就觉得自己已经掌握了概念,但这不是真的。你练习得越多,就会越清晰。
下面我推荐一个链接,在那里你可以找到一些质量好的机器学习问题,然后尝试解决一下。你可以找到很多这样的问题,只要上网搜索一下就行了。
20个机器学习问题
链接:
https://www.kdnuggets.com/2015/12/tour-real-world-machine-learning-problems.html
4.专注于准确性,而不是了解模型的工作原理
预测模型是如何进行预测的?这是数据科学工作流程中,一个非常常见的、却被忽视的问题。准确性并不是一切。一个预测准确度达95%的模型显然是好的,但如果你无法向另一个人解释,模型是如何实现的,哪些特征使它这样工作,以及你在构建模型时的想法,客户是会拒绝使用的。
如何避免这个错误?
防止自己犯这个错误的最好方法是多与业内人士交谈。没有比经验更好的老师了。你可以练习制作一些简单的模型,尝试着向非技术人员解释。然后慢慢增加模型的复杂性,并继续解释,直到你不理解数据模型下面发生了什么为止。这将教会你何时停止,以及为什么简单模型总是在实际应用中被优先考虑。
5.优先考虑工具,而不是业务问题
这是一个有争议的观点。让我们举个例子来更好地理解。假设你有一个关于房价的数据集,需要预测未来房地产的价值。数据集中变量超过200个,包括建筑物的数量,房间的数量,租户的数量,家庭的大小,庭院的大小,水龙头是否可用,等等。你可以构建出一个精度良好的模型,但不知道系统为什么会自动丢弃某个变量。而事实证明,该变量是真实场景中的一个关键元素。
这是一个灾难性的错误。拥有工具和库是一件很好的事情,但是将这些东西与业务问题相结合,才是真正的数据科学家需要努力的地方。
如何避免这个错误?
当你申请某一特定行业的数据科学家职位时,请了解该领域的公司是如何使用数据科学的。搜索与该行业相关的数据集和问题,并尝试解决它们,这将给你带来巨大的信心。
![](https://img.haomeiwen.com/i5877922/da99882362ee7927.gif)
6.过高估计了学位的价值
自从数据科学超级流行以来,证书和学位几乎随处可见。一个相关领域的很牛的学位和证书,肯定会增加你成功的机会,但它既不是充分条件,也不是最重要的因素。我并不是说获得学位或证书很容易,但你不应该仅仅依靠它们。
在大多数情况下,学校教的内容与应用于企业的完全不同。当你在真实的环境中工作时,必须面对很多意外因素,如截止日期、技术障碍、客户等,这些都是你成为一个好的数据科学家需要克服的事情。所以,只有证书或学位并不能说明你符合资格。
如何避免这个错误?
学位认证是有价值的,但这个价值只有当你在课堂外应用知识,并将其公之于众的时候,才能体现出来。
你可以参加相关的实习,哪怕是兼职。可以联系领英上的本地数据科学家,进行取经。永远保持开放的心态学习。走进现实世界,试着了解这个行业是如何运作的。对于额外的学习,你可以去下面的链接里寻找,尝试一些有趣的机器学习项目。
为初学者提供8个有趣的机器学习项目
链接:
https://elitedatascience.com/machine-learning-projects-for-beginners
7.你自认为,如果编码不好,就不能成为数据科学家
每个人都有自己的技能,每个人都有自己的特长。当我开始学习Python时,遇到了很多困难,因为之前根本没学过式的编程。那时我还不知道市场上有各种各样的工具。我花了很多时间,来提高自己的编码技巧。
如何避免这个错误?
做数据分析必须要学会编码的日子,已经一去不复返了。现在,你不必花费大量时间来学习代码。当然,如果你学会编码,技能肯定很出色。
另一方面,如果你在编码上遇到任何困难,现在市场上有许多简单易用的分析工具,可用于执行数据分析。下面提到的这些工具都不需要进行编码,只需简单的拖放点击,就可以完成工作。(所有这些都可以免费下载)
Trifacta
Rapid Miner
Qlikview
Knime
Tableau
Open Refine
Talend
H2O
Excel/spreadsheet
8.在简历中使用太多的技术术语
许多求职者写简历时,犯的最大错误就是,用专业术语把简历变得模糊而沉重。如果你的简历现在有这个问题,请立即改正!
简历应该告诉人们,你能给公司带来什么。当招聘人员看简历时,他想了解你的背景,以及你以简洁、概括的方式完成了哪些工作。如果你简历中有一半的内容,都是模糊而沉重的数据科学术语,却没有任何解释,那么这份简历可能不会引起人们的兴趣。
如何避免这个错误?
不要简单地罗列你使用过的编程语言或库。在解决实际问题时,试着描述在哪里使用过它们。只列出你完成某件事的技巧,并排除其他干扰语句。消除简历杂乱的最简单方法是使用要点。简历需要反映出你对公司的潜在影响和贡献。
设置简历模板是一项很重要的任务,制作一个主模板,你可以根据自己要申请的不同职位,稍作修改即可。固定的模板很有帮助——在面试不同的职位时,你只需要进行微调。下面这篇文章,可能帮得到你。
如何撰写数据科学简历
链接:
https://www.forbes.com/sites/quora/2017/09/13/how-to-write-a-data-science-resume-when-youre-coming-from-academia/#1bbab5b22d26
9.一次学习多个工具
每个工具都有不同的特性、用途和自己独特的东西,因此,人们倾向于一次学习所有的工具。但这是非常糟糕的想法,你最终不会掌握任何一个。学习多个工具会产生很多混乱,并且在最初阶段,严重影响你解决问题的思路。
如何避免这个错误?
如果你正在学习一种工具,那就坚持下去,掌握它的各个方面。如果你正在学习R,那么不要被Python诱惑。坚持使用R,端到端地学习它,然后再尝试着把其他技能工具融合到自己所掌握的工具中。看看下面的文章,就能充分理解我的观点。
Python&R vs SPSS&SAS
链接:
http://www.theanalyticslab.nl/2017/03/18/python-r-vs-spss-sas/
SAS vs R vs Python
链接:
https://www.kdnuggets.com/2016/07/burtchworks-sas-r-python-analytics-pros-prefer.html
10.在解决问题时,没有结构化的思维
结构化思维是把框架应用到非结构化问题上的过程。拥有一个结构,不仅可以帮助分析师在宏观层面上理解问题,还可以帮助他们识别需要深入理解的领域。没有结构,分析师就像没有地图的游客。他可能知道自己想去哪里,但不知道怎么去。他无法判断需要哪些工具和车,才能到达想去的地方。
当你参加一个数据科学面试时,不可避免地会遇到案例研究、预测问题等。由于面试室内氛围凝重,又有时间限制,面试官会看你如何组织自己的想法,以得到最终的结果。拥有结构化的思维,可能会让你轻松获得这份工作。
如何避免这个错误?
你可以通过简单的训练和严谨的方法,获得结构化的思维模式。要提高自己的结构化思维,请遵循以下四个步骤:
从小事做起,瞄准大目标。
自上而下地处理技术问题。
尽可能使用一页纸来精炼流程。
避免逻辑混乱。
你可以通过以下课程,获得更多这方面的知识。
数据可视化和沟通
链接:
https://www.coursera.org/learn/analytics-tableau
管理数据分析
链接:
https://www.coursera.org/learn/managing-data-analysis
11.不能始终如一地工作
在个人和专业水平方面持续地学习和成长,意味着你非常重视学习新技能和分享知识。这将有助于生活的各个方面,从创建更有意义的关系,到更好地组织和管理时间。记住,每天练习2小时,比周末练习14小时要好得多。
我们对此有过深入的研究,如果你想在接下来的两个月里休息一下,两个月后再回到原来的状态,那几乎是不可能的。大多数早期掌握的概念都被遗忘,笔记丢失,感觉就像白白浪费了过去的几个月一样。
如何避免这个错误?
计划好想要学习的内容,并为自己设定最后期限。举个例子,如果你想了解一个特定的概念,就设定一个计划,给自己一个设置好的天数/周的学习计划,然后通过参加实践活动,加以巩固。
因为你决定要成为一个数据科学家,所以应该准备好投入时间。如果总是找借口不去学习,就可能一事无成。如果不断练习,就会在做决定时头脑清晰,掌控未来,并有一种满足感。
12.不重视沟通技巧,远离讨论
一些数据科学家把这种沟通和讨论称为“讲故事”。这里重要的是,要以一种清晰、简洁、有效的方式来表达你的见解,这样公司里的其他人,才能有效地利用这些见解。公司眼里强大的数据科学家,要能清晰、流利地将自己的技术发现,解释给非技术团队的人,如营销部门。
我还没见过一门强调这一点的课程。你可以学习所有最新的技术,掌握多种工具,做出最好的图表,但是如果不能向客户解释自己的分析,作为一个数据科学家,是失败的。
在数据科学领域,讨论、想法和头脑风暴都非常重要。你不能坐井观天式地工作——需要合作,并理解其他数据科学家的观点。作为一名数据科学家,几乎总是意味着一个团队工作,包括与工程师、设计师、产品经理、操作者等一起工作。
如何避免这个错误?
大多数数据科学家一般都是具有计算机科学背景的理科生,所以我理解,对他们来说这是一项很难掌握的技能。但如果想成为一名成功的数据科学家,就必须提高沟通技巧。
如果你对PowerPoint并不熟悉,花点时间学一下。利用视觉表达概念,是你迈出的重要一步。制作幻灯片的过程也能帮你整理思想,更好地理解正在做的工作。
另外,试着向非技术人员解释数据科学术语。它将帮你更好地分析问题,还能让你发现,自己在这方面做得有多好。
如果你在一家中小型公司工作,找市场或销售部门的人,和他们一起做这个练习。这对你的长远发展有很大帮助。
记住实践是关键!
结论
这些是我在数据科学职业生涯中,学到的一些重要的经验,其中大多数我一开始并不知道,希望它们能帮你成长。数据科学并不容易学习,但如果你有合适的规划,就会成为佼佼者。
原文链接:
https://hackernoon.com/12-mistakes-that-data-scientists-make-and-how-to-avoid-them-2ddb26665c2d
来源:hackernoon
作者:Blockchain DuDe
智能观 编译
—完—
亲爱的朋友:
虽然这是一篇写给未来数据科学家的文章,但读完,我这个外行也受益颇多。因此,毫不犹豫分享给你。
每个领域都有相通性。希望本文对数据科学家的你有帮助;也希望对教育领域的你有所启发。
祝安!
PS:为了方便与读者探讨,特意注册了一个专用号。如果你也是我们的铁杆读者,想探讨交流,可以加微信:znglmym。
智能观 灵米
2018-8-8 于北京中关村
想知道AI加教育领域有哪些最新研究成果?
想要AI领域更多的干货?
想了解更多专家的“智能观”?
请前往:www.智能观.com。
想交流沟通,请加负责人微信:znglmym
声明:
编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观点,不代表智能观观点。
![](https://img.haomeiwen.com/i5877922/0c68af0b807860e9.png)
网友评论