翻译自《Top 5 Mistakes of Greenhorn Data Scientists》
您准备好最终成为一名数据科学家。您参加了Kaggle比赛,然后狂热的观看了Coursera上的课程,您已做好准备,但是现实生活中的数据科学家的工作将与您的期望大不相同。
本文章探讨了新手数据科学家的5个常见误区。该文章是与SébastienFoucaud博士共同完成,他在学术界和工业界负责指导和领你年轻数据科学家方面拥有超过20年的经验。这篇文章旨在帮助您更好地为现实生活中的数据科学工作做好准备。
1.成为kaggle generation
您参与了Kaggle挑战并练习了您的数据科学技能。您可以使用stacking decision tree和神经网络,这很好。但是说实话,现实生活汇总您将不会像kaggle里面的数据科学家那样做很多模型堆叠。请记住,作为一般规则,您将花费80%的时间预处理数据,并将20%的剩余时间用于构建模型。
但是参与kaggle也有一定的好处。kaggle里面的数据经常被彻底清洗,以便您可以花更多时间调整模型。但是在您的实际工作中很少出现这种情况,您必须使用不同的格式和命名约定来收集来自不同来源的数据。
你将使用80%的时间做艰苦的工作来练习进行数据预处理的技能。抓取图像或从API收集它们;收集来自Genius的歌词;准备解决特定问题所需的数据,然后将其提取到终端中并训练机器学习生命周期。精通数据预处理无疑会使您成为一名对您的公司产生直接影响的数据科学家。
2.神经网络可以解决一切问题
深度学习模型在计算机视觉或自然语言处理领域优于其他机器学习模型。但它们也有明显的缺点。
神经网络需要大量数据。在只有较少的样本时,使用决策树或逻辑回归模型通常会更好。神经网络也是一个黑盒子。众所周知,它们难以解释和解释。如果产品所有者或经理开始质疑模型的输出,则必须能够解释模型,而传统模型解释就更容易。
下图James Le的这篇精彩总结展示了很多很棒的统计学习模型中,学习它们并了解它们的优缺点,和不同场景下的应用规范。除非您在计算机视觉或自然语音识别的专业领域工作,否则最成功的模型很可能是传统的机器学习算法。您很快就会发现,最简单的模型,如Logistic回归,是最好的模型。
3.机器学习是一个产品
机器学习在过去十年中享受并遭受了巨大的炒作。太多的初创企业承诺机器学习能够解决任何存在的问题。
机器学习本身永远不应该是产品。机器学习是创建满足客户需求的产品的强大工具。如果客户想要从准确的项目建议中受益,机器学习可以提供帮助;如果客户需要准确识别图像中的对象,机器学习可以提供帮助;如果企业从向用户展示有价值的广告中获益,那么机器学习可以提供帮助。
作为数据科学家,您需要以客户的目标为主要目标。只有这样,您才能评估机器学习是否有帮助。
4.将相关性与因果关系混淆
大约90%的数据是在过去几年中生成的。随着大数据的出现,机器学习从业者可以获得大量数据。有了这么多要处理的数据,学习模型会发现随机相关性的可能性增加。
上图显示了美国小姐的年龄以及蒸汽,热蒸汽和热物体的谋杀总数。鉴于这些数据,学习算法将学习美国小姐的年龄影响某些物体的谋杀数量的模式,反之亦然。然而,两个数据点实际上是无关的,并且这两个变量对其他变量绝对没有预测能力。
在发现数据模式时,不要忘记应用您的领域知识。它可能是相关性还是因果关系?回答这些问题是从数据中获取结果的关键。
5.优化错误的指标
开发机器学习模型遵循敏捷的生命周期。首先,您定义想法和关键指标。其次,您将结果原型化。第三,在满足关键指标之前,您会不断改进。
在构建机器学习模型时,请记住进行人工错误分析。虽然这个过程繁琐且需要付出努力,但它可以帮助您在以下迭代中有效地改进模型。请参阅《Andrew Ng’s Deep Learning Specialization》里下面的文章,以获取有关改进模型的额外技巧。
22 nuggets of wisdom to structure your machine learning project
年轻数据科学家为公司提供巨大价值。他们是学习在线课程的新手,可以提供即时帮助。他们经常是自学成才,因为很少有大学提供数据科学学位,因此表现出巨大的责任心和好奇心。他们对自己选择的领域充满热情,并渴望了解更多信息。但是要小心上述提到的会影响到第一份数据科学工作成败的误区
关键建议:
练习数据管理
研究不同模型的优缺点
保持模型尽可能简单
检查你的结论&因果关系、相关性
优化最有希望的指标
网友评论