美文网首页
李国杰院士谈面向大数据的数据科学

李国杰院士谈面向大数据的数据科学

作者: taon | 来源:发表于2019-10-21 12:09 被阅读0次

如今,大数据对于我们生活的影响是方方面面的,不仅在促进社会经济发展,促进社会公平法制有很大的推动作用,在科学研究方面也为我们提供新的方向。大数据就像我们观察自然界的放大镜和显微镜一样,成为了了解世界的新工具。

大数据一词是由美国IBM公司提出并炒起来的,最近IBM公司又提出了认知科学一词,准备用来取代大数据,可能2~3年后,认知科学将会成为我们谈论的新的行业名词。

数据是我们对自然界客观事物的描述,是从客观事物中抽象出来的东西。大数据要想发挥出它的价值,就必须与其他学科综合在一起。所以现在我们常说数据科学,它是综合了统计、代数、拓扑、计算机科学、基础科学(物理、化学、生物),应用科学(传感、通信、存储)等的集大成科学。

大数据对计算机科学带来的挑战:
图灵定义的计算机科学:G = F(x),计算机科学研究的核心就是算法F,输入x可以是任意对象。在大数据时代,输入对象x的体量非常的大,类型非常混杂,所以x就不能是任意对象了。所以计算机科学的定义也发生了转变,Computer Science = Science of Algorithm + Science of Data,计算机科学不再单单只研究算法,也应该研究数据。

大数据对机器学习(ML)和计算机视觉(CV)带来的挑战:
机器学习和计算机视觉作为目前人工智能领域最活跃的两个部分,由于我们平时的训练样本比较小,所以这些经典的算法表现的还可以。一旦当数据量变的非常大的时候,经典算法统统失灵了。普林斯顿大学做了一个实验,让计算机区分2000万张图像,总计2.1万个类别,计算机表现的非常差。这时候人工领域的深度学习表现的还算可以,但准确率也仅仅只有15%。

大数据对统计学带来的挑战:
以前我们在学习统计学的时候,我们都会假定所有样本服从独立同分布,然后我们才能够求得样本分布的均值、中位数、方差等,能够绘制样本的分布规律。在如今的大数据时代,数据往往并不满足独立同分布的要求,所以经典统计学也存在着很大的不足。
在经典统计学中,数据往往是样本量远远大于维度数,samples >> features。而大数据是立体式,全方位的数据,维度 >> 样本数,所以我们在处理数据的时候往往需要对其进行降维处理。
大数据分析是对全样本的分析,这一点显著区别于统计学中的抽样分析。在经典统计学中,我们先研究样本的规律,进而推广到整体。在大数据中,我们先研究整体的规律,然后用这一规律来验证局部样本。

大数据时代要培养“π”型人才:
“π”型人才就是要两条腿走路,既要掌握自己的专业知识,也要懂得计算机科学。以前,我们在想要取得研究上的突破往往需要花费很长的时间,如今我们将数据科学引入,通过让计算机分析研究过程中的所有数据,从而极大的(成千上万倍)加速了科学研究的进展。院校在计算机科学的设置上也要引入数据采集,传输,整理,分析,应用等专业,形成完整的数据科学体系。

相关文章

网友评论

      本文标题:李国杰院士谈面向大数据的数据科学

      本文链接:https://www.haomeiwen.com/subject/oebzmctx.html