美文网首页
大数据扫盲!关于Hadoop12个事实

大数据扫盲!关于Hadoop12个事实

作者: 丨程序之道丨 | 来源:发表于2019-03-21 19:42 被阅读0次

现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。

虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。在上周名的TDWI解决方案峰会中,TDWI研究主任兼行业分析师Philip Russom发表了“关于Hadoop的12点事实”的主题演讲,下面是演讲精华内容的总结,希望对您进一步了解Hadoop有所帮助。

1、Hadoop是由多个产品组成的

人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。

Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。

2、Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品

由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC

Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。

这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。

3、Hadoop是一个生态系统,而非一个产品

Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop的产品其结构化和关系性更强一些。

Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口,Hadoop当然也不例外。”

4、HDFS是文件系统,而不是数据库管理系统

Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。

数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

5、Hive与SQL类似,却非标准SQL

传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。

Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”

Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。

在此我向大家推荐一个大数据开发交流圈:658558542    (☛点击即可加入群聊)里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等,送给每一位大数据小伙伴,让自学更轻松。这里不止是小白聚集地,还有大牛在线解答!欢迎初学和进阶中的小伙伴一起进群学习交流,共同进步!

6、Hadoop与MapReduce相互关联,但不相互依赖

MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。

尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

7、MapReduce提供的是对分析的控制,而不是分析本身

MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。

Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”

8、Hadoop的意义不仅仅在于数据量,更在于数据的多样化

有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。

Russom说:“Hadoop的处理范围为大多数数据仓库所不及,比如针对半结构化与完全非结构化的数据。”

9、Hadoop是数据仓库的补充,不是数据仓库的替代品

Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳。

他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过。“

数据仓库在其领域中的性能仍然出色,Hadoop可起到对数据仓库技术进行补充的作用。数据仓库和其他系统的架构越来越多地开始向分布式靠拢,Hadoop在这里将发挥其作用。

10、Hadoop不仅仅是Web分析

Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。

Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生。

Russom尽管十分看好Hadoop的前景,但同时认为它的普及还需要数年时间。

11、大数据不一定非Hadoop不可

别看现在大数据和Hadoop已经密不可分,Russom却认为Hadoop并不是大数据的“唯一”。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等。

除此之外,在Hadoop没有诞生之时,一些企业就已经开始研究大数据了。例如,电信行业多年以前就有呼叫明细记录。

12、Hadoop不是“免费午餐”

虽然Hadoop属于开源技术,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲。

感谢您的观看,如有不足之处,欢迎批评指正。最后祝福所有遇到瓶颈的大数据程序员们突破自己,祝福大家在往后的工作与面试中一切顺利。

相关文章

  • 大数据扫盲!关于Hadoop12个事实

    现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创...

  • 关于大数据12个框架hadoop事实

    现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创...

  • Growth数据扫盲

    七层结构 看底层数据形成的原因,更具体。 看顶层预测未来成像,不细致仅是大概。 1.日志 Linux环境下,Apa...

  • 今天我为大家,“扫盲”抖音各业务线

    今天我为大家,“扫盲”抖音各业务线 最近做了一个抖音的扫盲课,想着各位的老板们可能没时间买课或者去听,所以摘出关于...

  • 关于大数据的15个事实和真相

    每个人都在谈论大数据,从年度支出的挑战,到创造就业机会,甚至大数据项目所需的工具。很多人相信大数据能帮助企业做出更...

  • 关于开展‘三个事实’的大讨论

    关于开展“三个事实”的大讨论 “解放思想,实事求是”是中共中央《公民道德建设实施纲要》中提出的时代精神内容之一,是...

  • 学习资源整理

    Commonjs规范PWAWeb worker 前端知识扫盲 Chrome与Chromium 关于前端性能的文章 ...

  • app离线缓存

    离线缓存 ---- 事实上就是数据存储嘛!我们做数据收藏功能、本地缓存!都是一个道理!对于稍微大的数据,我们常常使...

  • 疑问之事实表和维度表各是什么

    事实表 每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实...

  • TW学习总结(二)

    今天上午在公司对java的基本进行了知识扫盲,包括几种基本数据类型,java三大特性,集合类框架,工具类colle...

网友评论

      本文标题:大数据扫盲!关于Hadoop12个事实

      本文链接:https://www.haomeiwen.com/subject/vozqvqtx.html