数据科学在20世纪60年代已被提出,只是当时并未获得广泛的注意和认可。
1974年彼得.诺尔出版的《计算机方法的简明调查》中将数据科学定义为:"处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴"。那时候的数据科学概念并未脱离统计学的框架,统计学家们通过对小数据集进行分析来为公司或政府提供决策上的帮助。
20世纪80年代,计算机技术与统计学开始交汇。1996年的国际分类协会日本神户双年会,"数据科学"这个术语首次被包含在会议的主题词里(大会的名称叫"数据科学、分类学以及相关方法")。
进入2000年后,关于数据科学的报刊杂志以及书籍变得越来越多。
2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为研究对象、与信息和计算机科学技术相结合的学科,奠定了数据科学的理论基础。
2005 年 5 月,一份巴布森学院工作知识研究中心的报告《分析的较量》中提到了现代企业开始应用统计量化方法和预测模型作为竞争的主要部分(这项研究后来被扩展成《分析的较量:胜利的新科学》一书)。9月,"数据科学家"一词在一篇政府报告中第一次被给予了定义。美国国家科学委员会出版的《长存的数码数据收集:使 21 世纪的研究与教育成为可能》报告中将数据科学家定义为"信息与计算机科学家,数据库与软件工程师与程序员"。
2008年7月,日本工业标准调查会出版了一项题为《数据科学家与管理者的技能、角色、职业结构:对现有实践与未来需求的评估》的报告,其中把数据科学家定义为"进行创造性探寻与分析,掌握数据库技术,能通过数码数据开展工作的人士。"
2009年1月,谷歌的首席经济学家哈尔.瓦里安告诉《麦肯锡季报》:"驾驭数据的能力——能够理解它,处理它,从中提取价值,可视化,进行沟通——这将是未来几十年非常重要的技能。因为现在我们有免费的无处不在的数据。所以,所需的稀缺要素是理解数据并从中提取价值的能力……我真的认为这些能力——接触、理解、传达来自数据分析的洞察——会是极其重要的。" 6月,《数据科学家的崛起》一文使得对于非学术世界的人们对于数据科学家这一角色变得熟悉起来。
网友评论