Yahoo的新一代大数据技术架构解析

作者: 大数据架构师 | 来源:发表于2019-06-04 10:42 被阅读6次

Hadoop是当前最流行的大数据技术架构，很多大数据应用都是建立在Hadoop平台基础之上。很多人都知道Hadoop是Apache基金会的顶级开源项目，但

Hadoop是当前最流行的大数据技术架构，很多大数据应用都是建立在Hadoop平台基础之上。很多人都知道Hadoop是Apache基金会的顶级开源项目，但并不是每个人都知道，在Hadoop的演进发展中，70%的贡献是来自Yahoo公司。

Yahoo公司是Hadoop平台最大的用户、最有力的应用支持者和Hadoop商业化的重要推动者，Hadoop一直是Yahoo公司云计算平台的核心，Yahoo公司最大的单个Hadoop集群由4000个节点组成，Yahoo公司的推荐系统、广告分析等应用均建立在Hadoop分布式计算平台上，Yahoo公司通过开发者论坛等方式每年培养了大量掌握Hadoop平台的专业技术人员，Yahoo公司分拆出来并投资的Hadoop技术研发部门－Hortonworks目前是全球发展最快的Hadoop商业化公司之一。Yahoo 公司并没有躺在这些成绩上沾沾自喜，相反他们在积极推进Hadoop2.0——Yahoo新一代大数据技术架构。

Yahoo的新一代大数据技术架构由以下几个部分组成：

核心YARN。YARN或称为MapReduce2.0是这个技术架构的核心，它可以看作Yahoo新一代大数据平台的操作系统。为了解决Hadoop1.0的性能瓶颈问题，YARN将MapReduce中一个JobTacker中所具有的两个主要功能（资源管理和作业调度/监控）实现了分离，主要方法是创建一个全局的资源管理器（ResourceManager，RM）和若干个针对应用程序的应用主服务器（ApplicationMaster，AM）。经过这样的变化，YARN在扩展性方面有很大改进，可以支持10000+计算机集群，同时改进了MapReduce的性能，并且支持Hadoop之外的其他计算框架，如低延时、流计算等框架。

计算处理框架。除了支持批处理的Hadoop之外，还有Spark和Storm等计算框架的集成。其中，Hadoop用于离线大数据分析，Spark用于多迭代批处理数据分析， Storm则是用于流数据的实时分析和预测。借助YARN，Yahoo将大数据离线、近线和实时数据实现了整合。

——Storm。Storm原本是Twitter的流计算工具。Yahoo在新一代技术架构实践中，将Storm与YARN整合成为Storm-YARN来支持的实时的流计算分析。Storm是专门针对实时数据类型（即流数据）的计算分析框架，在流数据不断变化运动的过程中实时地进行分析，捕捉到可能对用户有用的信息，并把结果迅速发送出去。例如，为了支持个性化搜索广告，系统需要实时处理来自几百万唯一用户每秒成千上万次的查询，并即时分析用户的会话特征来提高广告相关性和预测模型的准确度。

——Spark。Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，已正式申请加入Apache孵化器，Yahoo新一代技术架构将其YARN进行整合。Spark立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，具有轻量、快速计算等特点。Spark基于Scala语言，是一个比Hadoop代码行少的轻量级系统，但它的计算速度非常快，对小数据集能达到亚秒级的延迟，对大数据集典型的迭代机器学习、即席查询、图计算等应用，Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍。

存储层。底层存储则仍是基于Hadoop的文件系统HDFS和NOSQL数据库HBase。

尽管，目前以YARN为核心的新一代技术架构还有很多方面需要完善，但其在Yahoo中战略地位已经基本确立。其一贯的开源策略，也将给大数据业界带来福音。

Yahoo的新一代大数据技术架构解析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

大数据前沿

大数据

玩转大数据

Python，web开发，前端技术分享

Yahoo的新一代大数据技术架构解析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据 爬虫Python AI Sql

大数据前沿

大数据

玩转大数据

Python，web开发，前端技术分享

大数据爬虫Python AI Sql