`

统一资源管理与调度平台(系统)介绍

阅读更多

1.背景

随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然语言处理/数据挖掘采用Spark(网页PageRank计算,聚类分类算法等,【注】Spark现在不太成熟,很少有公司尝试使用),对性能要求很高的数据挖掘算法用MPI等。考虑到资源利用率,运维成本,数据共享等因素,公司一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,这样,便诞生了资源统一管理与调度平台,典型代表是Mesos和YARN。

本文总结了资源统一管理与调度平台产生背景以及它们所应具有的特点,并对比了当前比较有名的资源统一管理与调度平台Mesos和YARN。

2.资源统一管理和调度平台具有的特点

(1)支持多种计算框架

资源统一管理和调度平台应该提供一个全局的资源管理器。所有接入的框架要先向该全局资源管理器申请资源,申请成功之后,再由框架自身的调度器决定资源交由哪个任务使用,也就是说,整个大的系统是个双层调度器,第一层是统一管理和调度平台提供的,另外一层是框架自身的调度器。

资源统一管理和调度平台应该提供资源隔离。不同的框架中的不同任务往往需要的资源(内存,CPU,网络IO等)不同,它们运行在同一个集群中,会相互干扰,为此,应该提供一种资源隔离机制避免任务之间由资源争用导致效率下降。

(2)扩展性

现有的分布式计算框架都会将系统扩展性作为一个非常重要的设计目标,比如Hadoop,好的扩展性意味着系统能够随着业务的扩展线性扩展。资源统一管理和调度平台融入多种计算框架后,不应该破坏这种特性,也就是说,统一管理和调度平台不应该成为制约框架进行水平扩展。

(3)容错性

同扩展性类似,容错性也是当前分布式计算框架的一个重要设计目标,统一管理和调度平台在保持原有框架的容错特性基础上,自己本身也应具有良好的容错性。

(4) 高资源利用率

如果采用静态资源分配,也就是每个计算框架分配一个集群,往往由于作业自身的特点或者作业提交频率等原因,集群利用率很低。当将各种框架部署到同一个大的集群中,进行统一管理和调度后,由于各种作业交错且作业提交频率大幅度升高,则为资源利用率的提升增加了机会。

(5)细粒度的资源分配

细粒度的资源分配是指直接按照任务实际需求分配资源,而不是像MapReduce那样将槽位作为资源分配单位。这种分配机制可大大提高资源利用率。

3.当前比较有名的开源资源统一管理和调度平台

当前比较有名的开源资源统一管理和调度平台有两个,一个是Mesos,另外一个是YARN,下面依次对这两个系统进行介绍。

3.1Mesos

Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache Incubator中的项目,当前有一些公司使用Mesos管理集群资源,比如Twitter。

总体上看,Mesos是一个master/slave结构,其中,master是非常轻量级的,仅保存了framework(各种计算框架称为framework)和mesos slave的一些状态,而这些状态很容易通过framework和slave重新注册而重构,因而很容易使用了zookeeper解决mesos master的单点故障问题。

Mesos master实际上是一个全局资源调度器,采用某种策略将某个slave上的空闲资源分配给某一个framework,各种framework通过自己的调度器向Mesos master注册,以接入到Mesos中;而Mesos slave主要功能是汇报任务的状态和启动各个framework的executor(比如Hadoop的excutor就是TaskTracker)。

3.2YARN

YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。它完全不同于Hadoop MapReduce,所有代码全部重写而成。整个平台由Resource Manager(master,功能是资源分配)和Node Manager组成(slave,功能是节点管理)。较于HadoopMapReduce,其最大特点是将JobTracker拆分成Resource Manager和Application Master,其中Resource Manager是全局的资源管理器,仅负责资源分配(由于Resource Manager功能简单,所以不会严重制约系统的扩展性),而Application Master对应一个具体的application(如Hadoop job, Spark Job等),主要负责application的资源申请,启动各个任务和运行状态监控(没有调度功能)。

4.Mesos与YARN比较

Mesos与YARN主要在以下几方面有明显不同:

(1)框架担任的角色

在Mesos中,各种计算框架是完全融入Mesos中的,也就是说,如果你想在Mesos中添加一个新的计算框架,首先需要在Mesos中部署一套该框架;而在YARN中,各种框架作为client端的library使用,仅仅是你编写的程序的一个库,不需要事先部署一套该框架。从这点上说,YARN运行和使用起来更加方便。

(2)调度机制

Mesos采用了双层调度策略,第一层是Mesos master将空闲资源分配给某个框架,而第二层是计算框架自带的调度器对分配到的空闲资源进行分配,也就是说,Mesos将大部分调度任务授权给了计算框架;而YARN是一个单层调度架构,各种框架的任务一视同仁,全由Resource Manager进行统一调度。总结来说,Mesos master首先完成粗粒度的资源分配,即:将资源分配给框架,然后由框架进行细粒度的资源分配;而Resource manager直接进行细粒度的分配,即:直接将资源分配给某个任务(Task)。

其他各个特性对比如下表:

5.Mesos与YARN发展情况

个人认为Mesos和YARN均不成熟,很多承诺的功能还未实现或者实现得不全,但总体看,它们发展很快,尤其是YARN,在去年年末推出Hadoop-0.23.0后,近期又推出Hadoop-0.23.1。随着各种计算框架(如Spark,S4,Storm等)的日趋成熟,一个统一的资源管理和调度平台将不可或缺。

另一个与Mesos和YARN类似的系统是Facebook开源的Hadoop Coroca,具体可参考:“Hadoop Corona介绍”

分享到:
评论

相关推荐

    煤炭集团公司综合调度统一平台的研究与应用

    基于SOA、Web GIS、Java EE、数据交换等技术,研究并设计了高度集成的煤炭集团公司综合调度统一平台,克服了现有系统存在功能相对单一、数据孤岛严重的问题。平台主要包括表现层、业务层、数据层、集成层四层架构,其中...

    电力调度管理信息系统的开发与应用

    管理子系统,辅助调度中心进行科学化管理,为电网调度运行和职能管理提供 及时的、全面的、准确的信息服务,有助于全面的掌握系统的运行情况,提高 管理水平。 b. 建 设和完善原有的基于Intemet技术的内部网络,开发...

    基于SpringBoot+Vue 的企业级 智能通用报表 调度平台 管理系统

    基于SpringBoot+Vue 的企业级 智能通用报表 调度平台 管理系统 项目经过严格测试,确保可以运行! 报表是所有企业都必要的分析决策工具,传统的展示报表的方式特别麻烦,步骤大概要经历 - 1、数据库中创建目的表,...

    智能调度平台系统技术要求.pdf

    2、软件平台的要求 2.1投标人开发建设的系统必须符合《深圳市公交智能调度系统 平台规范SZDB/Z 35- 2011》以及招标人的平台功能需求,按照《深圳市公交智能 调度系统 通信协议SZDB/Z 36- 2011》接入符合《深圳市...

    基于hadoop-yarn的在线离线混部资源管理系统项目源码.zip

    基于hadoop-yarn的在线离线混部资源管理系统项目源码.zip基于Hadoop-yarn的在离线混部资源管理系统提供对在线任务和离线任务在同一个集群下的混合调度。云计算是互联网时代信息基础设施的重要形态和信息技术发展的...

    可视化运维管理及抢修调度系统解决方案建议书.doc

    可视化运维管理及抢修调度系统是杭州叙简科技有限公司自行研制开发的、具有自主知识产权的综合运维管理系统,是专门针对运维管理业务应用需求而研发的运维管理、抢修的系统。 可视化运维管理及抢修调度系统是集成...

    应急指挥调度通信融合系统

    同时系统提供丰富的指挥调度模块,通过"一套系统一个操作合"即可实现对各类音视频资源统一指挥,一键调度满足应急管理部门“平战结合"不同指挥调度的需求,构建多场景指挥调度模式,贴合实战适用数字化战场。...

    关于铁路电力实行统一调度管理确保电力系统安全运行的研究.pdf

    关于铁路电力实行统一调度管理确保电力系统安全运行的研究.pdf

    智能公交运营调度管理信息化建设方案.ppt

    智能公交系统通过对区域内公交车进行统一组织和调度,提供车辆定位、线路轨迹、行车速度、电子站牌到站信息发布、车辆性能参数管理(油耗)等功能,以及公交线路的实时调配与服务能力,实现一定区域内的人员集中...

    智慧市政设施管理信息系统项目可行性研究及概算方案(代初步设计)

    通过对市政设施的数字化改造、智能化分析及信息化融合,使得城市市政管理者能够更准确的预测市政管理中可能出现的时间、更及时地调度市政资源,进而采取及时的疏导、防范和处理措施,始终保持市政系统的有效运转。...

    石化监控指挥调度系统

    整个生产视频监控调度系统的建设将覆盖整个厂区、各大装备设施、家属区,做到某的安全监控的统一管理、集中监控。一方面保证生产和人员安全,另一方面也将严防不法人员对石油、天然气等资源进行偷盗,等违法行为,...

    基于蚁群算法的云计算资源调度策略研究

    云计算是目前国内外科研机构和商业机构重点研究的一种新兴计算模式,它是网格 计算!并行计算和分步式计算的发展,是下一代网络与应用的新技术,主要运用虚拟化 技术,将云计算数据中心的各种...系统的资源数与平台整体性能

    网络综合资源数据的共享与统一调度平台的设计和实现

    中国移动通信集团公司广西...本文提出一种基于综合资源数据的信息交换接口标准和交换规范,利用统一调度管理模式实现资源数据、业务数据的数据交换平台,从而实现对全专业网络资源和信息服务资源在异构系统之间的共享。

    海康威视iSecure Center综合管理平台产品手册

    该平台适用于全行业通用综合安防业务,对各系统资源进行了整合和集中管理,实现统一部署、配置、管理和调度。 海康威视 iSC 管理平台(iSecure Center)是一套“集成化”、“智能化”的平台,通过接入视频监控、...

    iSecure Center综合安防管理平台配置手册.pdf

    该平台适于全行业通综合安防务,对各系统资源进了整和集中管理实现一 部署、统一配置管理和调度。 部署、统一配置管理和调度。 部署、统一配置管理和调度。 部署、统一配置管理和调度。 部署、统一配置管理和调度。 ...

    智慧水务平台功能介绍.doc

    即建立智慧水务运行信息管理平台和指挥调度平台,同时通过4个支撑体系:数据采集(营业收费系统、工程报装系统)、水务物联网(管网调度系统、智能巡检系统、智能抄表系统)、应用支撑(自动化办公系统、移动办公)...

    应急管理系统平台方案设计.doc

    40 4.5.3 方案调整 40 4.5.4 方案管理 40 4.5.5 方案要素配置 40 4.6 指挥调度系统 40 4.6.1 资源调度 41 4.6.2 任务管理 41 4.6.3 处置跟踪 42 4.6.4 总结报告 42 4.7 应急保障系统 42 4.7.1 应急资源维护 43 4.7.2...

    智慧数字政府政务创新大数据服务云平台规划方案

    大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。 大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理...

    大数据竞赛平台介绍.docx

    中间的PaaS层为云系统业务调度中心,包括统一身份认证管理、各种管理功能、竞赛考题资源管理、统一业务访问控制和数据监控、采集和分析功能等。这一层将各种竞赛环境需要的开发支持与管理工具、实验教学管理工具等...

    智能燃气管理平台.docx

    抢修调度系统是对隐患抢修从发现、调派、出发、抵达、开起抢修、处理过程汇报、处理完成、审核归档,全方位多部门的调度管理平台,留下完整的接单处理记录,利于抢修任务工作过程的回溯,抢修品质、时效与改进的分析...

Global site tag (gtag.js) - Google Analytics