新型智算中心算力池化技术白皮书-33页VIP专享VIP免费

中国移动通信有限公司研究院 新型智算中心算力池化技术白皮书(2023
I
新型智算中心算力池化技
白皮书
(2023 年
中移智
中国移动通信有限公司研究院
2023 年 8 月
中国移动通信有限公司研究院 新型智算中心算力池化技术白皮书(2023
I
前 言
当前,数字经济已成为国民经济高质量发展的新动能随着人工
智能在产业数字化进程中从“单点突破迈向“泛在智能”一个以
数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作
为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的
关键领域,已成为数字经济高质量发展的核心引擎智能算力基础设
施建设也迎来了高潮。
智算中心作为集约化建设的算力基础设施,它以 GPU、AI 芯片等
智能算力为核心,提供软硬件全栈环境,主要承载模型训练、推理、
多媒体渲染等业务,支撑千行百业数智化转型升级。然而传统智算中
心的智算资源利用率较低,资源分布相对碎片化,不利于整体效能的
提升,亟需一个可聚合各类型算力、实现敏捷化资源管理的平台,使
能资源可以被极致利用,算力池化技术应运而生。
为凝聚产业共识,进一步推动算力池化技术成熟,中国移动发布
本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍
算力池化的定义与目标总体架构关键技术和当前业界的探索实践
并呼吁业界紧密合作、加快构建算力池化统一的标准体系。
本白皮书由中国移动通信有限公司研究院主编北京趋动科技有
限公司、华为技术有限公司中兴通讯股份有限公司威睿信息技术
(中国)有限公司联合编撰,由中移智库发布。
本白皮书的版权归中国移动所有,未经授权,任何单位或个人不
得复制或拷贝本白皮书之部分或全部内容。
中国移动通信有限公司研究院 新型智算中心算力池化技术白皮书(2023
II
目 录
.....................................................................................................................................I
....................................................................................................................................II
1. 算力池化技术背景 ............................................................................................................ 1
1.1 传统智算中心存在资源效率问题......................................................................... 2
1.1.1 GPU 资源利用率不30% ............................................................................2
1.1.2 资源碎片化导致分配率............................................................................. 3
1.2 池化技术是提高资源效率的关键......................................................................... 4
2. 算力池化定义与目标 .........................................................................................................6
2.1 算力池化的定义 ................................................................................................... 6
2.2 算力池化的目标 ................................................................................................... 6
3. 算力池化架构与关键技术 ................................................................................................. 8
3.1 算力池化平台技术架构 ........................................................................................ 8
3.2 算力池化技术能力层级 ...................................................................................... 10
3.3 算力池化关键技术 ............................................................................................. 12
3.3.1 软件定义的资源分配方式 ........................................................................... 12
3.3.2 算力资源高质量管理技术 ........................................................................... 14
3.3.3 泛在化碎片的池化整合技术 ........................................................................16
4. 算力池化产业实践 .......................................................................................................... 19
4.1 业界厂商池化技术实践 ...................................................................................... 19
4.2 中国移动池化技术实践 ...................................................................................... 24
5. 展望与倡议 ..................................................................................................................... 26
参考文献 ..............................................................................................................................27
缩略语列表 .......................................................................................................................... 28
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)新型智算中心算力池化技术白皮书(2023年)中移智库中国移动通信有限公司研究院2023年8月I中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)前言当前,数字经济已成为国民经济高质量发展的新动能,随着人工智能在产业数字化进程中从“单点突破”迈向“泛在智能”,一个以数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设施建设也迎来了高潮。智算中心作为集约化建设的算力基础设施,它以GPU、AI芯片等智能算力为核心,提供软硬件全栈环境,主要承载模型训练、推理、多媒体渲染等业务,支撑千行百业数智化转型升级。然而传统智算中心的智算资源利用率较低,资源分布相对碎片化,不利于整体效能的提升,亟需一个可聚合各类型算力、实现敏捷化资源管理的平台,使能资源可以被极致利用,算力池化技术应运而生。为凝聚产业共识,进一步推动算力池化技术成熟,中国移动发布本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了算力池化的定义与目标、总体架构、关键技术和当前业界的探索实践,并呼吁业界紧密合作、加快构建算力池化统一的标准体系。本白皮书由中国移动通信有限公司研究院主编,北京趋动科技有限公司、华为技术有限公司、中兴通讯股份有限公司、威睿信息技术(中国)有限公司联合编撰,由中移智库发布。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。I中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)目录前言.....................................................................................................................................I目录....................................................................................................................................II1.算力池化技术背景............................................................................................................11.1传统智算中心存在资源效率问题.........................................................................21.1.1GPU资源利用率不足30%............................................................................21.1.2资源碎片化导致分配率低.............................................................................31.2池化技术是提高资源效率的关键.........................................................................42.算力池化定义与目标.........................................................................................................62.1算力池化的定义...................................................................................................62.2算力池化的目标...................................................................................................63.算力池化架构与关键技术.................................................................................................83.1算力池化平台技术架构........................................................................................83.2算力池化技术能力层级......................................................................................103.3算力池化关键技术.............................................................................................123.3.1软件定义的资源分配方式...........................................................................123.3.2算力资源高质量管理技术...........................................................................143.3.3泛在化碎片的池化整合技术........................................................................164.算力池化产业实践..........................................................................................................194.1业界厂商池化技术实践......................................................................................194.2中国移动池化技术实践......................................................................................245.展望与倡议.....................................................................................................................26参考文献..............................................................................................................................27缩略语列表..........................................................................................................................28II中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)1.算力池化技术背景数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地,人工智能正深刻地改变我们的生产、生活方式。同时随着5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发,据IDC公布的《数据时代2025》显示,从2016年到2025年全球总数据量将会增长10倍,达到163ZB,其中非结构化数据占70%以上,计算模式将变得更加复杂,对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。随着智能计算广泛融合到生产、生活的各个方面,以GPU、AI芯片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发展的主流形态。在此背景下,各国政府已开始布局AI领域全栈能力,并出资引导智能算力基础设施建设;我国也已进入智能化时代,“十四五”期间,相关部委积极推动智算中心建设发展,旨在面向人工智能场景提供公共算力服务。同时,随着ChatGPT等基础通用大模型业务引爆了对GPU的市场需求,产业各方纷纷加入对基础大模型的训练和培育,导致“一芯难求”,GPU价格也随之暴涨。以英伟达A800为例,据市场数据统计,近半年来的价格增幅高达30%以上。如何在有限的资源供应内尽可能提高利用率,充分发挥算力效率的同时降低智算中心TCO,目前已成为智算中心建设待解决的关键命题之一。1中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)1.1传统智算中心存在资源效率问题1.1.1GPU资源利用率不足30%当前智算中心主要以国家或当地政府总体牵头建设为主,此外,AI应用服务企业也在布局自有智算基础设施建设。然而,据公开数据统计,传统模式下的智算中心GPU利用率较低,平均数值低于30%:−AWSre:Invent2018公布数据:平均GPU利用率为20%−Facebook2021年机器学习负载分析报告:平均GPU利用率不足30%−英伟达GTC2022公布数据:Google云平均GPU利用率为25%传统智算中心的GPU资源利用率过低,主要来源于以下多个方面的原因:(一)资源分配较为粗放:资源分配以整卡分配为主,辅以一虚多的虚拟化分配方式,颗粒度较粗,无法适配不同AI任务对资源的差异化需求,导致部分资源闲置,影响算力资源的利用率;(二)算力没有被充分激活:AI任务模型设计缺陷、算力优化程度不足、模型框架与底层芯片适配不充分等原因,均可能导致算力资源的性能无法充分发挥,导致额外的资源损耗;(三)网络带宽瓶颈制约:智算中心设备和服务器之间的通信需要消耗网络带宽,网络瓶颈会影响影响整体性能,算力资源空闲度高、利用率低。传统智算中心的GPU资源利用率问题是一个综合性的问题,需要2中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优化解决,其中尤以资源管理策略方面的优化可控性强、生效快、投入产出比高,是新型智算中心算力池化的重要研究方向之一。1.1.2资源碎片化导致分配率低资源碎片指体量较小,低于应用的需求而无法被分配出去的闲置资源,通常来说,应用所需资源的规格越高、种类越多,导致资源碎片的概率则越大。近几年来,AI业务迅速发展,从训练到推动,从小模型到大模型,AI任务的种类越来越多,对算力的需求越来越高,算力资源碎片化趋势较为明显。碎片化的原因包括任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素。(一)任务类型差异:智算中心提供的算力资源可以用于不同种类的任务,包括机器学习、深度学习、图像处理等。也包括大模型、小模型、分布式推理、集中式推动,由于不同类型的任务对硬件配置的要求不同,因此会导致不同类型的任务需要不同的算力资源,难以充分适配;(二)任务规模差异:任务规模不同,所需求的算力资源不同,并且不同任务规模对算力资源的分配也无实际标准,小规模任务可申请大规模的算力,虽然存在资源浪费,但却可加速任务完成,相反,在资源总数限制下,大规模任务也可根据相对较少的算力资源,虽然影响计算效率,但却节约了投资。以上多方面的因素,导致任务需求3中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)规格与硬件配置无法对齐,从而导致算力资源碎片化;(三)任务优先级差异:不同的任务可能有不同的优先级,一些高优先级的任务可能会占用大量的计算资源,导致其他任务无法及时得到满足,影响整体资源布局;(四)任务调度能力:任务调度也是影响计算资源碎片化的重要因素。如果任务调度不当,可能会导致计算资源得不到充分分配,从而造成资源浪费。综上所述,根据多样化AI任务对算力资源的差异化需求,灵活地调度、分配资源,是降低智算中心算力资源碎片的关键。1.2池化技术是提高资源效率的关键如何对稀缺、昂贵的算力资源充分利用,降低其不可分配的碎片概率,可以考虑借鉴云计算的思路,对GPU、AI芯片等进行聚合池化,再利用先进的资源管理技术进行切分、调度、分配,使能资源可按任务的实际需求进行有序供给。(一)物理成池:通过高性能智算中心网络打通服务器间通路,使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以互联互通、透明共享。这项技术允许跨用户、用例、时间尺度共享物理算力资源,还可以为在集群的一个节点中执行的单个AI任务任意调用集群中算力,使AI任务获得进一步加速。(二)逻辑成池:利用池化软件对CPU、GPU、AI芯片等资源在逻辑上聚合,AI任务在创建时,不再是将零散的、孤岛式的资源进行4中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)裸分配,而是根据调度流程,从聚合的池化资源中切分出所需数量进行分配。一方面,分配的资源数量可按AI任务实际所需执行,当AI任务所需资源不明确,或因负载变化导致资源数量变动时,可实现动态供给、回收,实现多AI任务的峰谷互补,降低资源闲置率;另一方面,切分后的零散资源可以再度聚合、调度、分配,降低碎片率。5中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)2.算力池化定义与目标2.1算力池化的定义智能算力池化指依托云计算技术,整合GPU/AI芯片等异构算力资源,构建集中管理的资源池,并按上层智算业务的需求,对池化的资源进行统一调度、分配,实现智算业务生命周期管理的全套技术。为解决智算中心所面临的资源利用率问题,算力池化基于传统云计算技术(如Kubernetes、OpenStack,智算中心以Kubernetes为主)有针对性地增强GPU/AI芯片池化能力,采用软件定义的方式,对GPU/AI芯片进行分时调度管理,实现按GPU/AI芯片的细粒度分配资源,并采用GPU/AI芯片RuntimeAPI劫持、应用程序监视器等技术,实现资源跨节点远程调用、零散资源整合等,从而达到算力资源充分利用、碎片最小化效果,可有效提升资源效率,降低智算中心整体建设成本。2.2算力池化的目标智能算力池化的目标是利用软件定义技术,对通过高速无损网络互连互通的CPU、GPU、AI芯片等算力资源进行池化整合,实现资源的集中调度、按需分配,使能资源可被充分利用,降低碎片概率,提高总体有效算力、降低智算中心购置成本。化整为零。革新传统的整卡分配、一虚多虚拟化分配的粗放式分配方式,使能精细化分配能力,根据AI任务的资源需求进行按需供6中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)给,契合多样化业务的差异需求。隔空取物。基于高速无损网络,跨节点调取GPU、AI芯片等智能算力资源,使能CPU传统算力及GPU、AI芯片智能算力高度解耦,进一步降低碎片化比例。化零为整。整合分布在多机上的零散资源,汇聚碎片为可再分配的资源、汇聚小规格资源为更大模型业务可使用的资源,使能资源可高效分配。变静为动。革新传统的资源静态分配、本地绑定的机制,使能资源可以根据负载变化动态分配、回收,多任务间可以峰谷互补,全局资源可以适度超分,促进资源效率提升。7中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)3.算力池化架构与关键技术3.1算力池化平台技术架构新型智算中心算力池化平台依托云计算技术扩展池化能力,根据AI任务特点,一般基于K8S(Kubernetes)定制化实现。算力池化平台的技术架构参考如下:图1算力池化平台技术架构算力池化平台逻辑上可分为池化资源管理、资源服务代理、池化运行时三类模块组成:(1)池化资源管理−Kubernetes管理组件:基于Kubernetes原生管理服务组件定制化增强,如支持分布式文件存储、支持POD多网络平面、支持RoCEv2/Infiniband网络等;−Kubernetes调度扩展:关联Kubernetes调度服务扩展专用的池化资源类型,对该类资源的请求转递智算资源池化控制器进行调度、分配,需配合Kubernetes设备插件使用;−智算资源池化控制器:对GPU、AI芯片等智算进行统一管理、8中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)调度、分配;(2)资源服务代理−池化服务代理:根据智算资源池化控制器的调度结果,将池化运行时对资源的访问请求重定向到实际物理位置执行,如涉及跨机访问智算资源,则需相关服务器上的池化服务代理多次重定向,跨机重定向的流量需经由高速无损网络(如参数面网络);−Kubernetes服务代理:基于Kubernetes原生服务代理组件定制化增强;−Kubernetes设备插件:配合Kubernetes调度扩展,为Kubernetes服务代理注册专用的池化资源类型;−容器运行时:基于原生容器运行时(如Dockerd、Containerd等)定制化增强;(3)池化运行时−池化运行时:依托GPU、AI芯片的原生运行时(如CUDARuntime)进行二次封装,采用API劫持、应用程序监视等技术,将AI应用软件/AI开发框架对算力资源的访问转递至池化服务代理执行。池化运行时位于容器POD内,在容器运行时由自动注入。根据上述技术架构,当AI应用编排器通过调用KubernetesAPI创建应用时,可按新增的池化资源类型指定申请的资源数量(如pool.kubernetes.io/gpu:1),对该类型资源的申请会被Kubernetes调度扩展拦截、转递至智算资源池化控制器进行调度,智算资源池化控制器按申请的资源数量、资源池内空闲资源分布情况进行调度后,9中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)将调度结果响应给Kubernetes管理组件,然后Kubernetes管理组件正常执行AI应用的创建流程,由Kubernetes服务代理创建最终POD作为交付物,并通过池化服务代理配合在POD中自动注入池化运行时、通过Kubernetes设备插件配合在POD中插入虚拟GPU。AI应用的POD在运行的时候,通过池化运行时访问虚拟GPU、执行AI任务,池化运行时拦截对虚拟GPU的访问请求、转递给池化服务代理执行,池化服务代理通过向智算池化控制器查询虚拟GPU所对应的真实智算资源位置、规格,按查询结果分配智算资源、执行AI任务,如果真实的智算资源位于远程计算节点,则由本地池化服务代理将访问请求转递给远程计算节点上的池化服务代理处理,相关通信经由参数面网络。3.2算力池化技术能力层级算力池化技术本质是通过软件定义硬件加速的方式,更加高效灵活的聚合、调度以及释放海量AI加速算力,精准保障AI模型开发、训练、部署、测试、发布全链条算力配给,降低智算中心算力服务提供成本,提升智算中心整体效能。从对异构算力使用的成熟度及灵活性角度出发,当前算力池化技术可划分为以下三个能力层级:10中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)图2算力池化技术能力层级阶段1,静态管理。将单物理GPU/AI芯片按固定比例切分成多个虚拟GPU/虚拟AI芯片,比如1/2或1/4,每个虚拟GPU/AI芯片的显存相等,算力轮询。最初是伴随着服务器虚拟化的兴起,解决虚拟机可以共享和使用GPU/AI芯片资源的问题。对于静态管理方案,2021年英伟达在部分Ampere系列GPU上提供了MIG技术,例如可以将A100切分成最多7份。阶段2,动态管理。以单物理GPU/AI芯片为目标,支持物理GPU/AI芯片从算力和显存两个维度灵活切分,实现自定义大小(通常算力最小颗粒度1%,显存最小颗粒度1MB),满足AI应用差异化需求。同时,软件定义GPU/AI芯片资源可充分适应当前应用云原生化趋势,实时响应上层应用对资源需求的变化,实现vGPU/AI芯片资源基于Scale-Up/Scale-Down的动态伸缩,并通过资源动态挂载动态释放实现GPU/AI芯片资源超分。阶段3,池化管理。池化技术的重大突破在于支持CPU通用算力及GPU/AI芯片等智能算力的独立成池,两种资源池内汇聚的资源独立调度、分配,当调度的资源分属不同节点时,可通过高速无损网络11中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)跨节点调用、组装成AI任务所需总算力。此管理方式下,AI应用可以部署到智算中心的任意位置,不管所在节点上有没有智算资源、智算资源够不够,所欠缺的部分从远程抓取即可,从而实现在网络范围内充分共享闲置、甚至碎片化的多种类型资源,促进资源的有效利用。由于远程调用的资源相比本地化资源的访问速度相对较低,因此,池化管理技术可引入服务质量管理技术,按任务优先级,优先分配本地资源,次选远程调用,任务资源不足时将AI任务进行队列化管理,等待释放出充足资源时再运行。3.3算力池化关键技术3.3.1软件定义的资源分配方式传统的依赖于硬件支持的虚拟化技术下,AI应用通过访问GPU/AI芯片的运行时所提供的接口,以获得对智算资源的调用,资源的算力完全由卡硬件确定,软件上难以介入,从而无法获得更敏捷的管理。池化技术下,资源分配方式发生了根本性的变革,软件介入了资源的算力供给,为开启更敏捷的资源管理模式,比如动态伸缩、资源超分等奠定了技术基础,为持续优化智算资源利用率创造了无限可能。池化技术主要通过以下两种实现了软件定义的资源分配:(1)API劫持技术API劫持技术是目前比较普遍的、针对智能算力的池化技术,它通过劫持对RuntimeAPI(如CUDAAPI)调用实现资源调度。12中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)如3.1章节技术架构的图1所示,AI应用的容器POD内运行的池化运行时并非GPU/AI芯片原生的运行时,而是基于原生运行时进行了一定定制化的版本,它对上层应用所提供的API接口完全等同于原生运行时,因此对AI应用来说是透明的。当AI应用访问池化运行时的API时,则被池化运行时转递至池化服务代理执行,池化服务代理则具备敏捷化的资源管理功能,比如按1%算力、1MB缓存的精度细粒度分配资源,实现跨节点远程调用资源等。图3API劫持技术图解API劫持技术的关键在于池化运行时仿真GPU/AI芯片的原生运行时,由于GPU/AI芯片种类、型号繁多,其原生运行时又相对活跃、升级频繁,仿真工作较为复杂,开发量、维护难度较大。(2)应用程序监视器技术这是一种完全与GPU/AI芯片无关的设备虚拟化和远程处理方法,允许在没有显式软件支持的情况下启用新的硬件体系结构。该项技术通过应用程序监视器工作,该监视器与Hypervisor管理虚拟机的方式类似,分为前端、后端,前端监视指定应用程序的活动,拦截至后端处理,后端可以按应用程序申请的数量分配资源,或将应用程序拆分到多台机器上运行,在保持代码、数据和执行环境一致性的前提下13中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)使用这些机器上的智算资源,从而实现资源的细粒度管理、远程调用等资源敏捷化管理功能。应用程序监视器负责维护应用程序状态(内存、文件、应用程序库的加载),以及虚拟化与系统的交互(例如系统调用和进程间通信),以确保在多个位置执行时的一致性。图4应用程序监视器技术图解与API劫持技术直接介入到AI应用访问资源的流程、需要仿真原生运行时的API接口的方式不同,应用程序监视器不介入到AI应用访问资源的流程、而是通过更底层的系统调用隐含而广泛的支持更多种类、型号的硬件和新的运行时功能,其实现方式与特定的运行时API(如CUDA)无关,具备更加强大的通用性和兼容性。应用程序监视器技术是一种新型的池化方案,建议技术成熟后再考虑商用引入。3.3.2算力资源高质量管理技术基于软件定义的资源分配方式,算力池化平台可以实现更敏捷的资源管理方式,从而实现算力的高质量管理。(一)资源细粒度分配通过虚拟化手段,将物理资源按照算力与显存两个维度进行细粒度抽象,上层应用不再以物理硬件为单位进行资源申请及使用,而是14中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)以物理硬件算力1%,显存1MB为基本单位。(二)资源限额管理通过时分等算力控制技术,对不同租户之间、同租户不同进程、不同租户不同进程之间实现GPU算力及显存的隔离与控制,减少资源争抢带来的性能扰动,避免程序恶意抢占算力资源。(三)资源无感动态伸缩池化技术可通过资源动态分配,为容器动态的分配可用资源,上层应用可根据自身业务逻辑及负载情况,实时向算力调度平台申请算力、显存资源,实现资源动态垂直扩展。(四)资源超分及峰谷互补智算中心对外提供业务时,为避免业务之间的竞争影响到服务质量,不同类型的业务通常分开部署在不同的资源池。但业务的运行往往存在高峰期和低谷期,业务独占资源导致异构算力硬件普遍存在空闲周期,很多业务空闲期远长于高峰期,导致总体资源利用率很低。与此同时,为保障服务质量,业界通用做法是采用资源过量供应的方式来对业务进行支撑,导致预留的资源量与实际的使用量之间存在较大的差距。如果能够将业务的波谷时段利用起来,就能减少波谷时间,从时间维度提升效能;同理,将资源预留冗余缩小,就能从空间维度提升效能。因此将不同优先级、不同波动周期的业务进行混合部署,为两个维度提升利用率提供了可能性,即利用低优先级任务占用空闲资源,同时高优先级任务能及时抢占到资源,从而保证关键业务的服务质量。算力池化技术可以通过软件定义,将底层物理硬件资源抽象后做适当的15中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)放大,利用算力硬件计算周期空闲时间,通过时分复用有效使用算力,同时,利用单一指针进行内存托管,将显存、系统内存进行统一维护,在CPU与GPU之间形成内存池共享内存资源,由系统来自动地进行内存迁移,以实现GPU显存扩展,如CUDAunifiedmemory。(五)智算任务队列化管理单个AI任务的开展可简单划为为数据准备、任务执行、模型评估三个阶段,从资源角度上分析,数据准备阶段主要使用CPU资源,训练开始后才开始使用GPU算力资源进行计算加速。相较于CPU通用算力资源,智算中心内智能算力资源更加容易达到瓶颈,为提高整体AI训练任务的执行效率,算力池化技术可提供智能算力资源排队的能力,即AI任务的下发可根据CPU、内存等资源的可用情况触发,训练任务进入执行阶段后,如智能算力资源不足可进行排队等待,按序执行。同时可根据训练任务的重要程度,设置资源使用的优先级。3.3.3泛在化碎片的池化整合技术泛在化碎片至分布式在本地、远程的传统方式下无法再利用的资源。对这些泛在化碎片进行池化整合,合并为逻辑视图上的一整片算力,有更高概率满足AI任务的资源规格需求。(一)泛在化资源跨机整合技术论文《CharacterizingDeepLearningTrainingWorkloadsonAlibaba-PAI》分析了阿里一个训练集群上的负载特征(见图5):从任务数量上看,约59%的任务是单卡小任务;从GPU资源消耗上看,16中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)虽然81%的GPU是被分布式训练任务占用(单机多卡也算分布式),但是这其中有一半的资源是被小于8个GPU的任务所占用(1台物理服务器可满足);只有0.7%数量的任务是使用超过128个GPU(需要16台或更多物理服务器)。图5阿里某训练集群的负载特征这个分析表明,训练任务是多样化的,其规模有大有小,从资源角度上看,意味着智算中心各类业务对CPU算力与GPU算力的配比需求是多样化的,而GPU服务器硬件配置往往是单机4卡或者单机8卡,单机CPU算力与GPU算力的固定配比,在承载多样化的训练任务时,势必带来资源碎片现象的产生,进而引发大量多卡任务因为资源不足在队列中排队等待执行,容易带来资源整体流转效率低下的问题。为解决资源碎片问题,池化技术可以实现对零散资源的整合,包括跨机整合。见第3.1章,智算资源池化控制器实现了对CPU及GPU/AI芯片分池、单独调度,也即为POD调度的CPU与GPU/AI芯片资源可能不在同一台服务器上,但对应用是透明的,当AI应用访问虚拟GPU时,由池化服务代理根据虚拟GPU所对应的真实GPU资源位置分配资17中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)源,如果有远程调用需求,则由POD所在服务器上的池化服务代理转发资源请求至目标服务器上的池化代理服务访问。通过资源聚合,可以将GPU集群内的资源碎片利用网络快速整合,保障多卡任务快速启动,提升资源流转效率。(二)智算业务SLA分级及自动服务质量管理智算中心作为承载海量智算业务的基础设施,在资源优化方面应在兼顾训练任务的整体吞吐率、GPU/AI芯片资源的整体利用率的同时,提升多个训练任务的整体性能,而非强调单个任务的性能。深度学习框架是很多训练任务依赖的一类基础软件,其设计目标之一是提升单个训练任务的性能,而池化技术的目标是通过充分利用数据中心内所有GPU/AI芯片资源,从而达到多任务的整体最优,两者并不矛盾。框架和池化技术可以互相配合,在达成多任务整体最优的情况下,尽量让每个任务的运行更加优化。池化技术可针对不同任务对于性能的要求进行分级,按优先级高到低采取使用指定硬件资源、只使用任务所在服务器上GPU/AI芯片资源、任意调用数据中心内可用算力资源等分配策略,可以确保任务性能要求的前提下,达到整体资源最优分配。18中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)4.算力池化产业实践4.1业界厂商池化技术实践(1)趋动科技OrionX池化平台趋动科技的OrionX(猎户座)AI算力资源池化解决方案可帮助智算中心运营方构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的GPU/AI芯片。OrionX通过软件定义AI算力,颠覆了原有的AI应用直接调用物理GPU/AI芯片的架构。AI应用调用逻辑的vGPU,再由OrionX通过API劫持技术将vGPU需求匹配到具体的物理GPU/AI芯片,包括AI应用本地或远程的GPU/AI芯片。OrionX架构实现了GPU资源池化,让用户高效、智能、灵活地使用智算,达到了降本增效的目的。图6趋动科技OrionX软件架构(2)VMwareBitFusion和Radium池化平台19中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)VMware利用自己强大的vSphere计算虚拟化平台,并在其基础上集成了VMwareBitfusion池化能力,可以虚拟化GPU以提供可通过网络访问的共享资源池,从而加速人工智能和机器学习的应用程序。vSphereBitfusion采用客户端/服务器架构。该产品允许多个客户端虚拟机或容器POD运行人工智能和机器学习应用程序,以便在运行vSphereBitfusion服务器软件的虚拟机或容器POD上共享对远程GPU的访问。可以在vSphereBitfusion客户端计算机上运行应用程序,而提供加速的GPU则安装在网络中的vSphereBitfusion服务器计算机上。图7VMwareBitFusion软件架构VMwareProjectRadium正在研发通过监视器引入虚拟化服务的方式进行GPU池化。与Bitfusion技术不同,应用程序监视器在应用程序的上下文中运行,因此我们可以动态地将应用程序分成两半,TOPHALF也即应用程序监视服务负载拦截系统指令交由BOTTOMHALF执20中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)行,BOTTOMHALF也即资源管理监视器负责按Radium服务端程序的调度结果分配资源,以实现池化功能。图8VMwareRadium软件架构(3)中兴TECSOpenPalette平台中兴TECSOpenPalette产品以开源Docker和kubernetes技术为基础,为用户提供轻量级虚拟化容器云解决方案,并叠加池化能力。采用标准容器化技术,支持多容器共享宿主机CPU资源,同时支持容器CPU绑定;支持容器使用GPU/AI芯片功能,针对主流的GPU/AI芯片厂家(如英伟达、寒武纪),采用增强版的KubernetesGPUDevicePlugin,配合增强版的Kubernetes调度器使一个KubernetesPod独占一个或者多个GPU、使多个KubernetesPod共享一个GPU;针对AI应用需要指定GPUIndex的场景,开发了KubernetesPod指定GPUIndex的调度能力。21中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)图9中兴TECSOpenPaletteGPU方案架构中兴TECSOpenPalette产品通过提供CPU和GPU的池化能力,达到资源共享的目标,且在提高资源使用效率的同时,也满足客户对池化资源服务质量的要求。(4)华为基于Volcano的CCE平台华为基于Volcano的容器集群管理平台CCE,能够支持GPU/AI芯片混部能力,通过共享GPU/AI芯片算力、切分显存的方式,提升K8S集群GPU/AI芯片的资源利用率。Volcano通过四项创新调度技术实现对资源利用率的优化。22中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)图10华为基于Volcano的CCE方案架构−在线离线混合调度:CCE可以将离线和在线业务在同一集群中混合部署,空闲资源用来运行离线计算业务(如离线分析、模型训练等),而当业务高峰来临前,会自动释放离线业务占用的资源,保障在线业务对资源的诉求;−应用感知智能调度:为了进一步提升混合部署后的资源利用率,通过感知应用模型(如Web类应用、Tensorflow的PS和worker、Spark的Driver和executor等),针对不同应用模型对资源的诉求、应用负载情况,通过资源按需抢占、分时复用等机制,减少集群资源的空闲比例;并通过感知任务间拓扑结构,将各任务调度到最佳节点上,减少因网络瓶颈、数据跨节点传输等带来的时间损耗,进而可以将资源利用率提升2倍;−大规模分布式调度:为了保障业务混合部署后,海量任务并23中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)发调度的难题,CCE推出了分布式架构的任务调度器,提升吞吐能力,并通过调度算法剪枝,减少寻址深度和广度,同时结合调度决策复用机制,可将调度寻址时间缩短10倍以上,实现每秒1万容器的大规模并发调度;−GPU虚拟化:基于HCEOS2.0操作系统,CCE提供结合Volcano、GPU虚拟化技术实现的GPU算力和显存的细粒度调度、切分及隔离能力,可以更高效的利用GPU资源,提升智算资源利用率。4.2中国移动池化技术实践中国移动智算中心基于移动云底座的IaaS能力,管理算力基础设施层的各类硬件资源,向上提供智算类业务所需任务式服务。图8中国移动智算中心技术架构在整体方案上,我们将智算中心划分为大模型训练池、小模型训练池及推理池。中国移动将率先尝试在小模型训练池中,采用自研的容器基础设施EKI叠加相关池化模块,通过基于API劫持的池化技术,24中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)实现CPU、GPU/AI芯片、块存储/文件存储资源等基于高速无损网络的统一管理与调度,实现对智能算力的化整为零、隔空取物、化零为整、变静为动四大关键能力,为持续性的优化智算资源利用率,降低不可分配的资源碎片数量赋能。25中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)5.展望与倡议随着GPT、StableDiffusion等技术的成熟,AIGC产业高速发展,对智能算力的需求也呈指数级的增长。算力池化技术相较与传统的GPU/AI芯片直通技术来说,具备更高的算力利用效率、更便捷的使用方式及更低的使用成本,为产业发展提供奠定优质的算力基础。当前,中国移动已经开展了算力池化关键技术的研究,为推动算力池化技术成熟,实现异构算力资源的高效管理和去碎片化,实现极致资源效率,中国移动呼吁产学研各界合作伙伴精诚合作、凝聚共识,共同推进算力池化技术成熟,繁荣产业生态,提出以下几点倡议:联合展开算力池化关键技术攻关。联合攻关异构算力集中调度技术、池化运行时技术、算力敏捷化管理技术,基于中国移动算力网络试验示范网项目,开展算力池化平台产品的试验试点验证工作。联合推动算力池化标准体系建设。联合制定池化运行时标准,实现对不同种类、型号的硬件及不同版本的原生运行时进行协同,拉通开发生态,实现一次开发、任意兼容,为推动构建面向全球的标准化统一算力池化平台打下坚实基础。联合打造算力池化技术开源实现。联合众多GPU/AI芯片的制造商合作伙伴,发布具备标准化接口的池化运行时的开源实现,欢迎产业界积极参与,共筑算力池化产业生态。26中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)参考文献[1]算力网络白皮书[R],中国移动,2021[2]算力网络技术白皮书[R],中国移动,2022[3]中国算力发展指数白皮书[R],中国信息通信研究院,2021[4]AI框架发展白皮书[R],中国信通院,2022[5]新型数据中心发展三年行动计划(2021-2023年),中国工业和信息化部,2021[6]CharacterizingDeepLearningTrainingWorkloadsonAlibaba-PAI,WangM,MengC,LongG,etal.,201927中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)缩略语列表缩略语英文全程中文释义AIArtificialIntelligence人工智能CPUCentralProcessingUnit中央处理器GPUGraphicsProcessingUnit图形处理器ComputeUnifiedDeviceArchitectureNVIDIA推出的GPU运行时CUDAApplicationProgramInterface应用程序接口APITotalCostofOwnership总体拥有成本TCOGoogle推出的容器编排器K8SKubernetes基于融合以太网的RDMARoCERDMAoverConvergedEthernet服务等级协议SLA生成式预训练Transformer模型GPTServiceLevelAgreementGenerativePre-TrainedTransformer28中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)30

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

碳中和
已认证
内容提供者

碳中和

确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱