hadoop

作者: hochoy | 来源:发表于2019-03-13 16:26 被阅读0次

一、初识Hadoop
论Hadoop在大数据领域重要性，应该从入门谈起，Hadoop安
伪分布式部署yarn和MapReduce案例
hadoop集群配置
Hadoop用户的无密码信任关系实验
hadoop 安装问题总结
hadoop集群配置-总结
初认hadoop
Spark2.3.0-cdh5.16.1 standalone部
大数据技术原理与应用：大数据处理架构Hadoop生态圈

mapreduce 的编程模型

数据编程模型： input--split--map--（combine，partition）->shuffle--reduce-- output

TextInputFormat的作用

数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask个数以及对应的split。

为Mapper提供输入数据：读取给定的split的数据，解析成一个个的key/value对，共Mapper使用。

TextInputFormat extends FileInputFormat

FileInputFormat<K, V> extends InputFormat<K, V>

InputFormat {getSplits(); createRecordReader()}

spark 和 Hadoop的比较

http://www.elecfans.com/emb/20180226639630.html

都是大数据框架

MapReduce和Spark的主要区别在于，MapReduce使用持久存储，而Spark使用弹性分布式数据集(RDDS)。

容错

两者的灾难恢复方式迥异，但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上，所以其天生就能很有弹性的对系统错误进行处理。Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存，也可以放在磁盘，所以RDD同样也可以提供完成的灾难恢复功能。

网友评论

本文标题：hadoop

本文链接：https://www.haomeiwen.com/subject/nbnwuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop

mapreduce 的编程模型

TextInputFormat的作用

相关文章

一、初识Hadoop

论Hadoop在大数据领域重要性，应该从入门谈起，Hadoop安

伪分布式部署yarn和MapReduce案例

hadoop集群配置

Hadoop用户的无密码信任关系实验

hadoop 安装问题总结

hadoop集群配置-总结

初认hadoop

Spark2.3.0-cdh5.16.1 standalone部

大数据技术原理与应用：大数据处理架构Hadoop生态圈

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读