Hadoop仿真器的演进

作者: 0过把火0 | 来源:发表于2018-01-27 21:08 被阅读60次

Hadoop仿真器的演进
CC3200仿真调试与程序下载
Hadoop源码分析-HDFS架构演进
有关Hadoop的技术框架和架构的演进方向、演进史
2018-05-20
DeckBuild的几个命令
5.3 iOS 物理仿真器(动画者)
UIDynamic-吸附-重力-碰撞-物理仿真动画
UIDynamic
can't find variable TouchableHig

转载注明出处 [过把火]：https://www.jianshu.com/p/b9ba99a4daad

序

可能全网搜到Hadoop最多的就是安装配置教程或是使用方法（当然我也写过类似博文），今天主要围绕Hadoop的仿真器进行一次全面的总结。[参考高性能计算发展与应用]

Simulator？

Hadoop仿真器是干什么用的？
回归到 “仿真器” 一词的本质：

百度百科：仿真器（emulator）以某一系统复现另一系统的功能。与计算机模拟系统（Computer Simulation）的区别在于，仿真器致力于模仿系统的外在表现、行为，而不是模拟系统的抽象模型。

维基百科：模拟器（Emulator），也有译作仿真器，是指主要通过硬件或软件使得一台计算机系统（称作主host）在行为上类似于另一台计算机系统（称作客户guest）。模拟器一般允许在主系统上运行给客户系统设计的软件或者外设。模拟**(emulation)是指在一台电子设备或一个计算机程序能够模拟(emulateor imitate)另外一台设备或程序。例如：很多制造商生产的打印机模拟惠普LaserJet打印机，使得大量设计给惠普打印机的软件也能在这些品牌打印机上使用；在PC上运行虚拟机执行其他操作系统或者电视游戏；虚拟光驱；一些基于FPGA的硬件模拟器。

显然维基百科是解释的要清楚些，那么以Hadoop仿真为例，其含义就是利用某种数学或是统计方法来对整个Hadoop-MapReduce的流程进行模拟，并且能够以输出某种指标为目的来走完整个模拟流程。例如当下最广泛的就是以仿真时间，或者用个diaodiao的词，那就是预测。

仿真难点

对于MapReduce流程的仿真理论上不算困难，因为MR的执行原理很固定，并且每一阶段最关键的数据流的改变方式也是固定的，无非加上一些Hadoop的参数影响，但是总归是有章可循。
真正的难点在于，需要考虑真实场景下的资源竞争或是其他资源因素导致的Task延时。我们都知道并行计算的总时间由最后一个Task的执行时间来决定，因此，实际场景下的Task并行并不会跟理想情况下一模一样。那么仿真器如何去完成这些延时的仿真呢？目前大多是基于统计规律的仿真，这样的统计规律一定程上依赖于你获取样本的集群配置，没有哪家公司愿意投入成千上万的集群去做这样的事情，所以，目前的研究成果并不能完全适用于大规模集群。

Hadoop1仿真器

1 Mumak

Mumak是Apache官方原生的Hadoop时间模拟器。它为Hadoop MapReduce 调度器高负载运行的情况下，建立一个连续的事件模拟环境，Mumak由下面这些组件组成：客户端模拟器、Job Tracker模拟器，Task Tracker模拟器和模拟器引擎。模拟器引擎在实际运行中维持一个事件队列，管理所有的事件和内部组件。当系统程序运行
事件发生后，会触发执行相应的处理程序。HeartBeat Event是多种多样的（心跳事件是指Task Tracker发送给Job Tracker的一种特殊事件），TaskCompletion Event(任务完成事件表征了发送给Task Tracker的Map 任务或者Reduce任务的成功或失败)，JobSubmission Event（作业提交事件是指Job Client向Job Tracker提交了一份作业）。Job Tracker模拟器接收所有的Task Tracker发送来的心跳信息，它跟踪当前作业进度，将调度器的调度信息进行合并，然后做出作业调度的决策。下图展示了Mumak的基本架构。

目前，Mumak只能根据最近完成的任务日志信息来进行模拟。然而，在模拟过程中，一些系统设置，比如说，节点数量、每个节点的处理能力，这些是不能被改变的。它只能在当前设置下进行调试和模拟。所以，它可以模拟的环境非常有限。总而言之，Mumak不支持不同数量的节点，不能模拟网络负载，磁盘负载和shuffle阶段。

2 MRPerf

MRPerf在有些论文中也叫他MRPrf，反正pref就是代表performance的意思。
MRPerf的目标是在MapReduce子阶段层提供一个细粒度的模拟。MRPerf有两个简单的假设：第一，一个节点的资源在同时进行的任务之间是公平共享的；第二，它不能模拟操作系统层指令的异步预取。
MRPerf采用包级别的模拟，它的主要工作是给map和reduce任务建模，管理它们相关的输入、输出数据，做出调度决策，模拟磁盘和CPU负载。为了使用模拟器，使用者必须提供四个文件：节点说明文件、集群拓扑文件、数据分布文件和任务描述文件。得到的输出信息是各个层的执行跟踪信息，它提供了任务执行时间、传输数据量和任务每个阶段所用时间的一个排序等等。MRPerf的基本结构如下图所示。

目前，MRPerf仅限于模拟每个节点只有单独的存储设备，并且输入数据只有一个副本的情况。它不能模拟推测执行，推测执行是目前执行效果很好一种优化方法。模拟器不支持一些高级异常，比如：一个节点工作得比其它节点慢或者是任务的部分失效等问题。

3 SimMR

SimMR，它可以为Job Tracker的决策和任务槽在多个并发任务间的分配进行建模。
SimMR工作过程如下。首先，它通过存储在Job Tracker上每个作业的末尾的处理计数器和日志来产生作业跟踪信息，然后把他们存储在跟踪数据库中，跟踪信息可以反映出在特定集群中MapReduce任务的工作负载。然后模拟器引擎从数据库中读取作业跟踪信息，并在模拟周期中管理所有的具体事件，运行反馈事件处理器。SimMR是在任务一级来模拟作业，不像MRPerf那样模拟Task Tracker的细节。
SimMR的重点是调度策略。它可以使用不同的调度和资源分配策略，但是，就像
Mumak，它的使用受限于已完成任务的日志信息。同样，给定一个任务，在不同的工作负载的情况下，SimMR的工作效果还是不足够好。此外，它不支持网络拓扑。

4 MRSim

MRS im是一个基于特定事件的模拟器，它旨在Hadoop环境中模拟数据挖掘算法。它使用SimJava来精确的模拟在集群中不同实体间的交互。MRSim使用GridSim作为基础工具来模拟网络拓扑和网络负载，但是它只在本地机架上模拟数据分片的位置和各个数据分片的备份，这限制了它的使用。在开始模拟之前，MRSim需要两个文件：集群拓扑文件和作业说明文件。前者通过键值对记录了拓扑信息，后者记录了一些MapReduce任务的参数。例如：map任务槽数，reduce任务槽数等。所以，它可以让用户设计最好的配置来在具体的算法上获得最佳性能。

5 SimMapReduce

这个成果还是我的小老板留学期间的成果，做的也是非常好的。
SimMapReduce被设计成为一个方便被其他包所使用的工具箱，它考虑了数据本地性以及map与reduce之间的一些依赖关系，例如Hash决定的shuffle阶段的数据copy路径。但是其唯一不足是忽略对网络性能的仿真。

Hadoop2仿真器

YARNSim

Hadoop2的重大革命在于资源调度组建被YARN所取代，至此，Hadoop成为真正意义上的大数据存储与处理的利器。
对于YARN的仿真，目前最为出名的就是YARNSim，这是伊利诺伊理工大学孙贤和老师团队的成果。孙贤和教授是IEEE的院士，孙教授一生致力于计算性能的提升及优化，博士论文提出的CPU三级缓存颠覆了计算机界，暑期有幸在清华跟着孙老师完成暑期学校的学习。
YARN模式下的调度变得更为复杂，使得仿真难度加大。YARNSim是Task级别的仿真，其最大特点是能够灵活修改参数以匹配各个阶段，但是对于Shuffle阶段的网络传输部分，依旧存在缺陷。

总

目前为止，成果发表在较为顶级的会议及期刊的模型也就上述几个，且对于Hadoop2的仿真寥寥无几，我个人猜测是Spark的出现让人们的目光出现转移。已有的成果中，基本都缺乏对网络传输的仿真，原因也很简单，实验所用的集群过小，即使存在交换机，但其负载并没有很显著，因此该部分得不到有效的观测。

Hadoop仿真器的演进
转载注明出处 [过把火]：https://www.jianshu.com/p/b9ba99a4daad 序可能全...
CC3200仿真调试与程序下载
1 仿真调试通过CC3200仿真器可以对CC3200进行仿真调试，也可以通过仿真器的串口下载程序。仿真器如...
Hadoop源码分析-HDFS架构演进
[TOC] 本文尝试说明下面三个问题HDFS 如何实现有状态的高可用架构HDFS 如何解决单机内存受限问题HDFS...
有关Hadoop的技术框架和架构的演进方向、演进史
Apache Hadoop是一个开源软件框架，可安装在一个商用机器集群中，使机器可彼此通信并协同工作，以高度分布式...
2018-05-20
Java虚拟机仿真器
DeckBuild的几个命令
1. go go的作用是启动或者切换仿真器，仿真器可以是athena, atlas, Ssuprem3等等。 si...
5.3 iOS 物理仿真器(动画者)
1.3物理仿真器(动画者) (一)物理仿真器的作用作用:可以让物理仿真元素执行物理仿真行为,是UIDynamic...
UIDynamic-吸附-重力-碰撞-物理仿真动画
现实生活中：运动场==物理仿真器跑步==物理仿真行为人==仿真元素创建步骤： // 1.创建物理仿真器,并且指...
UIDynamic
物理仿真器 UIDynamicAnimator的常见方法 -(void)addBehavior:(UIDynami...
can't find variable TouchableHig
在仿真器上报 can't find variable TouchableHighlight 原因：没有引入Touc...

Hadoop仿真器的演进

序

Simulator？

仿真难点

Hadoop1仿真器

1 Mumak

2 MRPerf

3 SimMR

4 MRSim

5 SimMapReduce

Hadoop2仿真器

YARNSim

总

相关文章

Hadoop仿真器的演进

CC3200仿真调试与程序下载

Hadoop源码分析-HDFS架构演进

有关Hadoop的技术框架和架构的演进方向、演进史

2018-05-20

DeckBuild的几个命令

5.3 iOS 物理仿真器(动画者)

UIDynamic-吸附-重力-碰撞-物理仿真动画

UIDynamic

can't find variable TouchableHig

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我爱编程