最近对数据科学产生了浓厚的兴趣。在人工智能时代,数据科学、机器学习早已成为了热门话题。尤其是在中国,政府不断加大对人工智能的投入力度,力图“赶英超美”。一时间,数据科学家成为了炙手可热的人物,很多机构也都推出了各自的数据培训课程。最近读了一些有关数据科学的文章,遇到了很多新鲜的名词,例如机器学习,深度学习,人工智能。这些名词的语义和数据科学不但互相引用而且相互重叠,很难在脑海里形成明确的概念。因此,查阅了一些资料并整理出来,也算是总结了我对数据科学的初步认识。
在阿里云云栖社区的一篇翻译文章中,对这三个领域差异进行了简化【1】:
假设我们正在制造一辆自动驾驶汽车,并且正在研究如何在停车标记处自动停车的具体问题。那么我们将需要使用这三个领域的技能。
机器学习做出预测:汽车必须能够通过摄像头识别停车标志。我们构建了数据集,其中包含数以百万计的街边对象的照片,并训练一种算法来预测哪些有停止标志。
人工智能生成行为:一旦我们的汽车能够识别停车标志了,就需要决定什么时候执行刹车动作。太早太晚都非常危险,而且我们需要它能应对不同的路况(例如,它要能意识到在湿滑路面上刹车不会快速减速),这是一个控制理论的问题。
数据科学产生洞察力:在街头测试中,我们发现车辆性能不够好,因为总会略过一些停车标志。通过对街头测试数据的分析,我们得出了结论:在日出之前和日落之后,更容易错过停车标志。这让我们意识到,我们大部分的训练数据只包含白天的影像,所以我们构造了一个包括了夜间图像的更好的数据集,然后重新回到机器学习步骤进行研究测试。
但是,不得不承认在实际的研究和工作中这三者的区分并不明显。
首先,数据科学和机器学习就有很多重叠之处。都可以用逻辑回归来获取对有关关系的见解(越富裕的人越有可能购买我们的产品,所以我们应该改变我们的营销策略),并且可以做出预测(该用户有53%的几率购买我们的产品,所以我们应该向他推销)。因此,大多数的从业者能够非常自在的在两个领域之间来回切换。
其次,人工智能最为古老也是最为广为人知。1956年被认为是人工智能元年。这一年,一群先知般存在的科学家在美国达特茅斯学院,举行了一次“不食人间烟火”的会议,与会者包括摩尔,(提出了摩尔定律)约翰.麦卡锡(人工智能之父,LISP的发明者),马文.闵斯基(第一个模拟人活动的机器robot C的发明者)等。该会议的主题是:用机器来模仿人类学习以及其他方面的智能,其内容被总结成了一个惊世骇俗的名字:人工智能。自此,对人工智能的研究两落三起,已经被炒作泛滥。历史上的ML经常被认为是人工智能的一个分支(特别是计算机视觉,其实它是一个典型的人工智能问题)。看华为在自己的AI培训课程中对其关系的描述:
AI关系.png最后,数据科学的定义强调:
- 统计推断
- 数据可视化
- 实验设计
- 领域知识
- 通讯
从事数据科学工作的前提条件(包括但不完全):
python,统计学,数据处理,变成全栈式工程师,数据库知识(NoSQL & SQL),可视化技术。。。
网友评论