Hadoop与大数据之间的关系和区别

作者: 大数据架构师 | 来源:发表于2019-06-09 15:33 被阅读13次

Hive本质1大数据和Hive概述
Hadoop与大数据之间的关系和区别
Sqoop 简介
Hadoop-Shell 命令
sqoop介绍与安装
Spark和Hadoop的shuffule
Sqoop 使用
idea工具
MongoDB学习笔记
Spark学习

走进大数据，一种新兴的数据挖掘技术，它正在让大数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代，很快便可应用于普通企业，在遍地开花的过程中，它将改变许多行业业务经营的模式。

在计算机世界里，大数据被定义为一种使用非传统的数据过滤工具，对大量有序或无序数据集合进行的挖掘过程，它包括但不仅限于分布式计算(Hadoop)。

大数据已经站在了数据存储宣传的风口浪尖，也存在着大量不确定因素，这点上非常像“云”。我们请教了一些分析人士和大数据爱好者，请他们解释一下大数据究竟是什么，以及它对于未来数据存储的意义。

大数据走进历史舞台

适用于企业的大数据已经出现，这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降，和过去相比，公司可以将更多的数据存到存储器中。并且，将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据，IDC 数据库管理分析师Carl Olofson如是说。

“我们不仅要把这些事情做好，还要能承受得起相应的开支”，他说。 “过去的某些超级计算机也具有执行系统多重处理的能力，(这些系统紧密相连，形成了一个集群)但因为要使用专门的硬件，它的成本高达几十万美元甚至更多。”现在我们可以使用普通硬件完成相同的配置。正因为这样，我们能更快更省得处理更多数据。"

大数据技术还没有在有大型数据仓库的公司中得到广泛普及。IDC认为，想让大数据技术得到认可，首先技术本身一定要足够便宜，然后，必须满足IBM称之为3V标准中的2V，即：类型(variety)，量(volume)和速度(velocity)。

种类要求指的是待存储数据的类型分为结构化数据和非结构化数据。量是指存储和分析的数据量可以很庞大。 “数据量不只是几百TB，”

Olofson说：“要视具体情况而定，因为速度和时间的关系，有时几百GB可能就算很多了。如果我现在一秒能完成过去要花一小时才能完成的300GB的数据分析，那结果将大为不同。大数据就是这样一种技术，它可以满足这三个要求中的至少两个，并且普通企业也能够部署。”

关于大数据的三大误解

对于大数据是什么以及大数据能干什么存在很多误会。下面就是有关大数据的三个误解：

1、关系数据库无法大幅增容，因此不能被认为是大数据技术(不对)

2、无需考虑工作负载或具体使用情况，Hadoop或以此类推的任何MapReduce都是大数据的最佳选择。(也不对)

3、图解式管理系统时代已经结束。图解的发展只会成为大数据应用的拦路虎。(可笑的错误)

大数据与开源的关系

“很多人认为Hadoop和大数据基本上是一个意思。这是错误的，”Olofson说。并解释道： Teradata, MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop，但它们也可以被认为是大数据。

Hadoop是一种用于大数据的应用程序，因为它是建立在MapReduce基础上的，所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法，之后经过了主要由Google资助的一个项目的优化，因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序，其中包括MapReduce环境中的HBase数据库。

为了充分利用Hadoop和类似的先进技术，软件开发商们绞尽脑汁研发出了各种各样的技术，其中很多都是在开源社区里开发出来的。

Olofson 说“他们已经开发出了大量的所谓noSQL数据库，种类之多让人眼花缭乱，其中大部分都是键值配对数据库，能利用多种技术对性能或种类或容量进行优化。”

开源技术还没有得到商业支持。“所以在这方面还需要经过一段时间的发展完善，这一过程可能需要几年。基于这个原因，大数据可能需要一些时日才能在市场上走向成熟”他补充道。

据IDC预计，年内至少有三家商业公司能以某种方式给予Hadoop支持。同时，包括Datameer 在内的几家企业将发布配有Hadoop组件的分析工具，这种工具能帮助企业开发自己的应用程序。Cloudera和Tableau公司的产品清单里已经出现了Hadoop。

Hive本质1大数据和Hive概述
关系和NoSQL数据库与Hadoop 为了更好地理解关系数据库，NoSQL数据库和Hadoop之间的差异，让我们将...
Hadoop与大数据之间的关系和区别
走进大数据，一种新兴的数据挖掘技术，它正在让大数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代，很快...
Sqoop 简介
一、Sqoop(SQL to Hadoop)简介 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具...
Hadoop-Shell 命令
hadoop fs 和 hadoop dfs 和 hdfs dfs 之间的区别 hadoop fs : 意思是说该...
sqoop介绍与安装
sqoop介绍与安装 1 概述 sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”...
Spark和Hadoop的shuffule
spark的shuffle和Hadoop的shuffle（mapreduce)的区别和关系是什么？ Hadoop ...
Sqoop 使用
Sqoop 概要 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。链接各种DBMS到Hadoop...
idea工具
ApacheSqoop是用来实现结构型数据（如关系数据库）和Hadoop之间进行数据迁移的工具。 Apache S...
MongoDB学习笔记
mongo属于nosql非关系数据库。一、关系与非关系数据库区别： 1、数据和数据之间不存在关系，每条数据独立个...
Spark学习
spark入门 1. spark和hadoop的区别 Hadoop主要解决，海量数据的存储和海量数据的分析计算 S...

Hadoop与大数据之间的关系和区别

相关文章

Hive本质1大数据和Hive概述

Hadoop与大数据之间的关系和区别

Sqoop 简介

Hadoop-Shell 命令

sqoop介绍与安装

Spark和Hadoop的shuffule

Sqoop 使用

idea工具

MongoDB学习笔记

Spark学习

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

大数据前沿

玩转大数据

Python，web开发，前端技术分享

大数据