美文网首页互联网技术
数据科学之路(1)你真的了解数据吗?

数据科学之路(1)你真的了解数据吗?

作者: LiuShaodong | 来源:发表于2019-12-04 17:11 被阅读0次

    近些年,数据的爆炸性增长,使得我们的时代称得上真正的数据时代。与之俱来的就是我们如何有效地处理这些海量的数据,从中发现有价值的信息,从而指导正确的业务方向呢?正是这一最根本最原始的需求,推动着数据科学领域不断加速前进。同时,这一领域又是年青的,动态变化的,十分有生机的。这里我希望对数据感兴趣的小伙伴可以跟我们一起携手踏上数据科学之路的征程!

    早在1990年,一个普通硬盘可以存储1370MB的数据,传输速度为4.4MB/s,因此需要5分钟的时间可以读完整个磁盘中的数据。30年过去了,1TB的硬盘已经成为主流容量,但其传输速度约为100MB/s,读完整个硬盘数据需要2.5小时。可能有的小伙伴会问,生产中,我们有那么大数据量需要处理吗?

    美国DARPA实时地面监测系统产生数据:19ZB/年
    欧洲原子能研究机构的粒子加速器LHC产生数据:10ZB/年
    国航160架波音737飞机(10小时/天)发动机数据:283.5EB/年
    北京出租汽车67000余辆,产生GPS数据:48PB/年
    北京具有40万个电子眼,产生数据:1.4EB/年
    上海具有25万个电子眼,产生数据:0.9EB/年
    上海出租汽车50000余辆,产生GPS数据:35PB/年
    中国电信用户上网日志信息+通话记录:29.2PB/年

                                    数据单位换算(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)

    那我们现在如果有1PB的数据需要同时计算(需要统计聚合出一年内中国电信用户的上网次数和通话记录次数),假设一个硬盘容量足够大可以容纳下1PB的数据,那么光硬盘读完数据就要1024*2.5/24=106天,这显然是不可以容忍的。现在,我们需要想办法大大减少读数据的时间,那我们可以考虑同时从多个硬盘上读数据。假如我们有1000个硬盘,每个硬盘存储数据集的千分之一(约1TB),并行读取,那么我们可以用不到3小时的时间读完所有的数据。如果我们有10000个硬盘,每个硬盘存储数据集的万分之一(约100GB),并行读取,那么我们可以用不到0.3小时的时间读完所有的数据…… 仅使用容量为1PB的硬盘的千分之一乃至万分之一似乎有点浪费,但是我们可以在这1000个乃至10000个硬盘上存储1000个或者10000个1PB规模的数据集,实现硬盘的同时存取。另外,从使用数据的角度分析,用户不会同时操作这1000个乃至10000个数据集,所以彼此之间的存取效率并不会受到太大的干扰。以上就是分布式存储的核心设计思路。

    常见的分布式文件系统有很多,比如GFS、HDFS、Lustre、GridFS等,我们在接下来会深入研究HDFS的底层原理和相关使用,对其他分布式文件系统感兴趣的小伙伴可自行Google,这里就不详细介绍了。

    相关文章

      网友评论

        本文标题:数据科学之路(1)你真的了解数据吗?

        本文链接:https://www.haomeiwen.com/subject/caulgctx.html