1.2数据存储与分析
数据量增大,使得传统的数据读写速度跟不上,需要通过分布式存储提高读写速度。
分布式读写数据需要解决以下两个问题
1.2.1、硬件故障问题
RAID
HDFS
1.2.2、大多数分析任务需要以某种方式结合大部分数据来共同完成分析
MapReduce·
1.3 与Hadoop协同工作的处理模式
Interactive SQL(交互式SQL)
Iterative processing (迭代处理)
Stream processing (流处理)
Search(搜索)
1.4与其他数据库的区别
1.4.1与关系型数据库的区别
关系型数据库的数据访问模式包含大量的硬盘寻址,而寻址时间的提升远远不敌于传输速率的提升,在读取大量数据集就会花更长的时间,而流数据读取模式的速度主要取决于传输速率。
但是如果只更新一小部分记录,那么传统的B树结构更有优势,当大量数据更新时,B树效率明显落户与MapReduce,因为B树需要重建。
MapReduce适合解决需要以批处理方式分析整个数据集的问题,RDBMS适合于索引后数据集的点查询和更新。
MapReduce适合一次写入,多次读取数据的应用,关系型数据库则适合持续更新的数据集。
Hadoop更适合非结构化的数据,处理数据时才对数据进行解释。
传统的关系型数据库 MapReduce
数据大小 GB PB
数据存取 交互式和批处理 批处理
更新 多次读/写 一次写入,多次读取
事务 ACID 无
结构 写时模式 读时模式
完整性 高 低
横向扩展 非线性的 线性的
1.4.2 网格计算
Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问。
1.4.3志愿计算
志愿计算的是CPU周期
网友评论