面向算力应用环节的计算绿色化白皮书--蚂蚁_信通院VIP专享VIP免费

面向算力应用环节的
计算绿色化白皮书
面向算力应用环节的计算绿色化白皮书
蚂蚁集团 信通院
2023.08
面向算力应用环节的
计算绿色化白皮书
数字经济时代,算力作为重要底座支撑,价值日益凸显。尤 其 是 近 年 来 人 工 智 能 、元 宇 宙 、数 字
孪生等新技术的快速发展和应用,对计算的需求更是呈百千倍递增当前,全球各主要大国纷纷加
算力建设战略布局,全球算力竞争不断加剧。但与此同时,伴随算力规模的快速增长,算力能耗
总量也在急剧攀升。在全球都在关注碳达峰、碳中和的今天,推动算力的绿色低碳发展成为
了行业共识和时代需求,也是企业降本增效和实现社会责任的重要手段。
目前行业在推动算力绿色低碳发展过程中,关注点仍主要停留在可再生能源生产和绿色数据
中心建设上为更为全面、系统地分析绿色算力产业链,实现更大程度的总体节能减排效果,本白
皮书提出了
端到端的绿色算力
框架,覆盖到从电力生产、算力生产到业务应用的各个环节,并着重
分析当前尚未被产业界足够重视的业务应用环节中算力利用效率较低问题,提出了面向应用环节的
计算绿色化概念。
面向应用环节的计算绿色化,
是指面向规模化、数字化的业务计算需求,通过计算平台系统架
构升级、业务软件更新以及业务应用与平台系统协同设计等方法,提升硬件算力资源在使用过程的
效用,从而实现节能减碳的绿色计算技术。其中,实现计算绿色化的关键技术要素主要包括支持多
供应链、全面云原生化、转向无服务器化Serverless)、 实 施 平 台 工 程 , 并 建 立 绿 色 连 续 观 测 机 制
等。目前行业中的部分领先科技公司,尤其是需要支持海量业务规模、对算力使用需求较大的互联
网公司,已经在不断地探索和实践计算绿色化技术,并取得了较好的应用实施减碳效果。
总体来看,面向应用环节的计算绿色化还处于发展早期阶段,仍有待包括政府机构、行业联盟、
产业智库、技术厂商、应用企业等生态各方进一步协作,从产业政策引导、产学研用联合、产业联盟
构建、行业标准制定、绿色度指标评价设定和评估评测体系搭建、技术开源开放等角度,共同推动
计算绿色化的技术联合创新和产业规模化发展。为此,本白皮书也从行业视角和企业视角分别提出
了可供参考的产业实践路径,以期为加快推进绿色算力产业发展提供助力。
面向算力应用环节的
计算绿色化白皮书
1
第一章 发展背景 ....................................................................................................... 2
(一)发展数字经济需要算力基础设施为底层支撑 ........................................................... 2
(二)算力能耗总量快速攀升,实现双碳战略需要算力产业向绿色发展 ....................... 3
(三)需求层面来看,算力投资增加和节能减排压力成为企业重点关注问题 ....................... 4
第二章 端到端的绿色算力概念及内涵 ........................................................................... 6
(一)行业现有绿色算力研究概述 .................................................................................. 6
(二)端到端的绿色算力 ............................................................................................... 6
(三)端到端的绿色算力内涵 ........................................................................................ 7
第三章 应用环节计算绿色化的行业问题分析 ................................................................. 9
(一)行业需要关注面向应用的算力效用提升 .................................................................. 9
(二)算力应用企业尚未广泛应用绿色计算的问题分析 ................................................... 10
第四章 应用环节计算绿色化的技术分析 ...................................................................... 12
(一)应用环节计算绿色化的定义 ................................................................................ 12
(二)企业在算力应用环节面临的算力效用提升挑战 ...................................................... 14
(三)算力应用环节计算绿色化的关键技术要素 ............................................................ 16
(四)绿色计算行业实践案例 ...................................................................................... 25
第五章 应用环节计算绿色化产业实践路径 .................................................................. 26
(一)行业视角的产业实践路径 ................................................................................... 26
(二)企业视角的产业实践路径 ................................................................................... 27
第六章 总结与展望 .................................................................................................. 36
面向算力应用环节的计算绿色化白皮书面向算力应用环节的计算绿色化白皮书蚂蚁集团信通院2023.08面向算力应用环节的计算绿色化白皮书摘要数字经济时代,算力作为重要底座支撑,价值日益凸显。尤其是近年来人工智能、元宇宙、数字孪生等新技术的快速发展和应用,对计算的需求更是呈百千倍递增。当前,全球各主要大国纷纷加快算力建设战略布局,全球算力竞争不断加剧。但与此同时,伴随算力规模的快速增长,算力能耗总量也在急剧攀升。在全球都在关注“碳达峰、碳中和”的今天,推动算力的绿色低碳发展已成为了行业共识和时代需求,也是企业降本增效和实现社会责任的重要手段。目前,行业在推动算力绿色低碳发展过程中,关注点仍主要停留在可再生能源生产和绿色数据中心建设上。为更为全面、系统地分析绿色算力产业链,实现更大程度的总体节能减排效果,本白皮书提出了端到端的绿色算力框架,覆盖到从电力生产、算力生产到业务应用的各个环节,并着重分析当前尚未被产业界足够重视的业务应用环节中算力利用效率较低问题,提出了面向应用环节的计算绿色化概念。面向应用环节的计算绿色化,是指面向规模化、数字化的业务计算需求,通过计算平台系统架构升级、业务软件更新以及业务应用与平台系统协同设计等方法,提升硬件算力资源在使用过程的效用,从而实现节能减碳的绿色计算技术。其中,实现计算绿色化的关键技术要素主要包括支持多供应链、全面云原生化、转向无服务器化(Serverless)、实施平台工程,并建立绿色连续观测机制等。目前行业中的部分领先科技公司,尤其是需要支持海量业务规模、对算力使用需求较大的互联网公司,已经在不断地探索和实践计算绿色化技术,并取得了较好的应用实施减碳效果。总体来看,面向应用环节的计算绿色化还处于发展早期阶段,仍有待包括政府机构、行业联盟、产业智库、技术厂商、应用企业等生态各方进一步协作,从产业政策引导、产学研用联合、产业联盟构建、行业标准制定、绿色度指标评价设定和评估评测体系搭建、技术开源开放等角度,共同推动计算绿色化的技术联合创新和产业规模化发展。为此,本白皮书也从行业视角和企业视角分别提出了可供参考的产业实践路径,以期为加快推进绿色算力产业发展提供助力。面向算力应用环节的计算绿色化白皮书1目录第一章发展背景.......................................................................................................2(一)发展数字经济需要算力基础设施为底层支撑...........................................................2(二)算力能耗总量快速攀升,实现“双碳”战略需要算力产业向绿色发展.......................3(三)需求层面来看,算力投资增加和节能减排压力成为企业重点关注问题.......................4第二章端到端的绿色算力概念及内涵...........................................................................6(一)行业现有绿色算力研究概述..................................................................................6(二)端到端的绿色算力...............................................................................................6(三)端到端的绿色算力内涵........................................................................................7第三章应用环节计算绿色化的行业问题分析.................................................................9(一)行业需要关注面向应用的算力效用提升..................................................................9(二)算力应用企业尚未广泛应用绿色计算的问题分析...................................................10第四章应用环节计算绿色化的技术分析......................................................................12(一)应用环节计算绿色化的定义................................................................................12(二)企业在算力应用环节面临的算力效用提升挑战......................................................14(三)算力应用环节计算绿色化的关键技术要素............................................................16(四)绿色计算行业实践案例......................................................................................25第五章应用环节计算绿色化产业实践路径..................................................................26(一)行业视角的产业实践路径...................................................................................26(二)企业视角的产业实践路径...................................................................................27第六章总结与展望..................................................................................................36面向算力应用环节的计算绿色化白皮书2第一章发展背景(一)发展数字经济需要算力基础设施为底层支撑数字经济时代,算力作为重要底座支撑,价值日益凸显。算力是数字经济时代新的生产力,已成为支撑数字经济发展的坚实基础,对推动科技进步、促进行业数字化转型以及支撑经济社会发展发挥重要的作用。当前,我国数字经济赋能实体经济的作用日趋凸显,数字产业加快增长,产业数字化全面提速。算力基础设施作为支撑数字经济发展的重要资源,正成为推动我国经济转型升级和培育新动能的重要力量。万物智能时代,对计算的需求呈百千倍递增,人工智能、数字孪生、元宇宙等新兴领域的快速崛起,推动全球算力规模快速增长,驱动算力技术与产品多元创新,带动产业格局重构重塑。以元宇宙为例,英特尔预估元宇宙需要将计算能力提升一千倍1。全球算力竞争不断加剧,各主要国家地区纷纷加快战略布局。全球主要国家和地区深化算力发展路径。算力成为各国抢占发展主导权的重要手段,全球主要国家和地区纷纷加快战略布局进程。美国高度重视算力新兴技术发展,通过更新技术清单引领技术创新方向,持续巩固美国在算力技术领域的全球领导地位。2022年2月美国白宫发布新版《关键和新兴技术清单》,涵盖先进计算等14个关键技术和5个新兴技术领域,其中先进计算包括超级计算、边缘计算、云计算、数据存储、计算架构、数据处理和分析六大子领域。欧盟不断加大算力基础设施建设和关键技术研发的投入力度。2021年9月欧盟计划为数据基础设施、5G、量子计算等领域投资1770亿美元;2022年2月欧盟发布投资金额超过430亿欧元的《欧洲芯片法案》,提出聚焦新一代处理器、人工智能和边缘计算等芯片技术,强化欧盟各国在高端芯片设计和半导体生产工艺方面的竞争优势。《中国算力白皮书(2022)》提到,2021年美国、中国、欧洲、日本在全球算力规模中的份额分别为34%、33%、14%、5%,其中美国和中国位列第一梯队。在当前复杂严峻的国际环境下,全球算力竞争愈加白热化,世界各国加快本土算力产业建设,重塑全球产业链供应链竞争格局,给我国算力技术创新及产业生态带来新挑战。我国高度重视算力基础设施建设,多举措全面推动。近年来,我国出台了一系列重大方针政策,将算力基础设施的重要性提升到新的高度。2020年4月,国家发改委明确算力基础设施是“新基建”的发力方向之一。2021年5月,国家发改委等四部委联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出建设全国一体化算力网络国家枢纽节点的思路,强调要优化数据中心基础设施建设布局,加快实现数据中心集约化、规模化、绿色化发展,形成“数网”体系。2021年7月,工信部发布《新型数据中心发展三年行动计划(2021—2023年)》,明确了新型数据中心建设的总体要求和重点任务。2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》,明确要打通数字基础设施大动脉,系统优化算力基础设施布局。从“新基建”战略到“东数西算”1https://www.intel.com/content/www/us/en/newsroom/opinion/powering-metaverse.html面向算力应用环节的计算绿色化白皮书3工程,再到“数字中国”建设规划,在国家政策的大力推动下,我国算力基础设施建设进入全面加速期。全国各地积极响应政策号召规划建设数据中心、智能算力中心、超算中心。中国信通院统计数据显示,截至2022年底,我国在用数据中心机架总规模超过650万架,算力总规模超过180EFlops,近五年平均增速超过了30%,算力规模位居全球第二。(二)算力能耗总量快速攀升,实现“双碳”战略需要算力产业向绿色发展算力规模增长的同时,算力能耗总量也在快速攀升。随着数字经济的发展,数字政府、工业互联网、智慧交通、智慧医疗、金融科技等创新应用场景催生出对算力的巨大需求。根据信通院《数据中心白皮书(2022)》显示2,2021年,我国数据中心行业收入达到1500亿元,近三年年均复合增长率达到30.69%。此外,随着人工智能发展,行业对智能算力的需求成为算力需求增长的主要动力,尤其是随着AIGC风靡全球,领先企业纷纷布局大模型以构建比较竞争优势,大模型的训练对智能算力消耗远超过其它人工智能模型。GPU是智能算力的动力来源,但一台GPU服务器的成本是普通服务器的10倍以上,智能算力需求高涨直接带动算力成本显著上升。与此相对应的是算力所带来的能耗总量的快速攀升。根据国际能源机构(IEA)的数据显示3,2022年全球数据中心用电量为2400~3400亿千瓦时,约占全球最终电力需求的1%~1.3%。根据信通院统计,我国2022年数据中心能耗总量1300亿千瓦时,同比增长16%,预计到2030年,能耗总量将达到约3800亿千瓦时,如图1所示。来源:中国信息通信研究院图1我国数据中心耗电量(亿千瓦时)在“双碳”目标引领下,推动算力的绿色低碳发展成为了行业共识和时代需求。我国在第75届联合国大会上正式提出力争2030年前实现“碳达峰”,2060年前实现“碳中和”的重大战略决策。“碳达峰、碳中和”目标是中国经济走上高质量发展道路的战略之举,也是推动经济社会绿色2http://www.caict.ac.cn/kxyj/qwfb/bps/202204/P020220422707354529853.pdf3https://www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks824939111613003800050010001500200025003000350040002019202020212022…2030面向算力应用环节的计算绿色化白皮书4低碳转型、应对气候变化目标的重要机会和抓手。“碳达峰、碳中和”是经济社会发展的综合战略,覆盖范围广、牵涉面宽,系统性和全局性强,算力产业作为数字产业的重要组成部分也正朝着绿色低碳、节能增效、减排降耗等方向发展。从电力生产源头降低碳排放量,提高算力基础设施使用可再生能源电力比例,正成为算力产业链整体实现绿色低碳的前提。当前,我国数据中心企业正积极与电力、电网、储能企业共同探索“源网荷储一体化”模式,既能助力新能源消纳,促进储能技术发展,也可以充分发挥数据中心负荷侧的调节能力,提高数据中心电力供应的稳定性,有效降低数据中心用电成本。(三)需求层面来看,算力投资增加和节能减排压力成为企业重点关注问题企业IT基础设施投入持续上升,面临降本增效压力。随着企业数字化进程深入,企业内数据量快速增长,算力需求规模的增长速度远远大于企业实际业务增长的速度。算力需求增长同步推动企业IT开支持续增加,尤其是包括服务器采购在内的IT硬件的投入比例持续攀升。随着全球经济进入新常态,企业收入规模增长逐渐放缓,持续飙升的企业成本让管理层重新评估IT投入背后的业务价值,并考虑采取行动控制IT成本。根据BCG于2022年在全球开展的调研结果4,企业对扩大IT支出的态度愈发谨慎,在展望2023年IT投入时,有75%的企业认为IT支出仍将继续上升,这一数据在2022年调查时为82%。另外15%的企业认为IT支出将有所下降。受全球经济波动影响,企业希望通过更高的投入和产出比来应对为未来高度不确定的市场环境。企业面临“双碳”的政策要求和社会责任。在“双碳”大背景下,在行业层面,碳减排成为企业ESG战略中重要组成部分,同时,企业为获得更高的ESG评价,纷纷对外披露“双碳”工作以及经过第三方鉴证或认证的范围一、二、三碳排放量。在算力第一大应用领域的互联网行业,为践行社会责任,蚂蚁、阿里、腾讯、百度等科技企业以及数据中心企业陆续发布“碳中和”目标和路径,同时通过科技手段实现节能减排,如表1所示。4BCG,《中国科技绿色化发展报告》,2023年5月发布,https://web-assets.bcg.com/27/78/84b61acc4d4eb3ba2475c3fc5242/making-technology-development-greener-in-china.pdf面向算力应用环节的计算绿色化白皮书5表1主要互联网企业和数据中心企业“碳中和”计划企业名称公布时间“碳中和”路线图蚂蚁集团2021年3月承诺自2021年起,实现运营排放的碳中和(范围一、二)、2030年实现净零排放(范围一、二、三)。秦淮数据2021年4月到2030年,中国所有新一代超大规模数据中心100%采用“可再生综合能源解决方案”2040年全球所有新一代超大规模数据中心100%采用“清洁能源解决方案”。百度2021年6月到2030年实现集团运营层面碳中和(范围1/2)。万国数据2021年11月到2030年实现碳中和以及100%使用可再生能源。阿里巴巴2021年12月阿里巴巴集团目标于2030年前实现范围1/2碳中和,以及范围3碳排放强度较2020年减半。阿里云将致力率先在2030年实现范围3碳中和。腾讯2022年2月2030年前,实现现自身运营及供应链(范围1/2/3)的碳中和。世纪互联2022年4月不晚于2030年,实现运营层面范围1和范围2碳中和,实现运营层面100%可再生能源使用。资料整理:中国信息通信研究院面向算力应用环节的计算绿色化白皮书6第二章端到端的绿色算力概念及内涵(一)行业现有绿色算力研究概述算力是数字经济时代的主要生产力和重要驱动力,包含了计算能力、存储能力、网络运载能力、服务能力等多个方面能力。算力产业具有产业链条长、参与主体多、应用范围广泛等特点。当前,业界以自身业务实践出发,从不同角度阐述了绿色算力的内涵,可大致分为以下三类:第一类关注数据中心建设布局,以推进建设“绿色数据中心”为目标,充分考虑数据中心在规划、设计、建设、采购、运维的全生命周期中的绿色化;第二类关注硬件算力输出能力,以特定硬件为管理单元,如服务器、AI芯片、存储芯片等,强调设备性能高效集约,选型节能减排,构建与其相适配的上下游生态,从而实现节能减排的生态体系建设;第三类关注软件平台计算特征,以云计算为例,更关注通过可持续性的云计算的运营、交付与云服务的使用,起到节能增效的效果重点优化升级。绿色算力现有研究主要围绕数据中心、以硬件为主的IT基础设施、以及以云计算为主的软件平台展开,聚焦在电力生产/能源使用、算力供给环节,强调从能源使用效率角度优化数据中心的选址、设计、采购、管理,从计算资源角度优化IT基础设施的设计、建设、使用和回收过程,从而减少对于环境的影响,实现可持续性发展。为了牢牢把握“双碳”战略为我国绿色低碳创新发展带来的空前重要的历史机遇,算力发展呼唤全流程一体化的产业协同发展,实现端到端的绿色算力。(二)端到端的绿色算力为支持环境保护、促进资源节约高效利用,应从端到端的视角,覆盖从电力生产、算力生产到业务应用各个环节,通过上下游合作、软硬件协同的方式,推动算力更高效、更节能地支撑业务并产生价值,如图2所示。图2端到端的绿色算力示意图面向算力应用环节的计算绿色化白皮书7端到端的绿色算力主要包括三个环节:一是在电力生产环节,通过优化用能结构,实现数据中心清洁能源和新型储能的合理利用,围绕源网荷储一体化的微电网并网模式,探索数据中心与能源融合发展的绿色新场景;二是算力生产环节,通过应用高能效绿色硬件技术与产品,以及从选址、设计、施工、运营等环节入手提高数据中心全生命周期绿色化水平,推进节能减排改造与绿色低碳化重构,采用高效IT系统、制冷系统、供配电系统以及辅助系统,协调促进算力绿色生产与绿色传输;三是业务应用环节,提高软件平台对计算资源的利用率,提升应用与算法效率,将固有计算资源通过动态、弹性方式进行调配,减少算力应用侧能源消耗,实现算力在服务环节的绿色低碳。(三)端到端的绿色算力内涵相比于绿色数据中心的概念,端到端绿色算力实现了流程环节、实现方式和目标三方面的扩展:流程环节拓展为面向业务应用的端到端全流程。从电力生产、算力生产到业务应用环节,本质上是由对于能源、IT基础设备的关注,迈向了面向业务的全流程算力应用绿色化时代。实现方式更强调一体化的解决路径。端到端的解决路径设计更关注算力的一体化与互补化的视角,从绿色可再生能源的应用,到机房内设备的绿色设计、绿色采购和高效管理,到国产软硬件的一体化绿色、高效设计,并强调通过创新软件技术充分释放硬件计算能力,从而实现业务的绿色应用。目标从节能向增效扩展。在数字经济发展的未来,“节能增效”是实现环境和业务双重可持续发展的重要路径。绿色算力更强调通过高质量软件的调度优化能力、软硬协同方式实现业务的高效应用,提升效率的同时支撑不同的业务场景。在算力多元化和异构化的时代,面向不同类型的业务场景都需要行之有效的数据处理能力来支撑上层应用的爆发式增长。端到端的绿色算力围绕电力生产-算力生产-业务应用三大环节展开,如表2所示对比介绍了在每个环节的目标、价值、关键问题和主要解决路径等。面向算力应用环节的计算绿色化白皮书8表2端到端的绿色算力各环节详解电力生产环节算力生产环节业务应用环节机房IT设备目标提高数据中心用电中可再生能源的使用比例,降低每度电碳排放减少电力供给给非IT设备的比例提升度电的硬件算力生产提升单位算力消耗下,各种业务类型的数据处理能力价值从能源供给源头上直接减少碳排放降低能耗,削减数据中心运营成本应用国产低功耗硬件提升算力,实现数据中心内的绿色IT软件层面提高资源利用率,软硬协同提升算力效用5转换能源(碳)➜数据中心电力(kWh)数据中心电力➜非IT设备电力(kWh)IT设备电力➜硬件算力(IOPS、FLOPS等,芯片指令级算力)硬件算力(IOPS、FLOPS等,芯片指令级算力)➜业务价值关键问题非清洁能源比重大能源效率低算力效率低算力效用低主要解决路径可再生能源的使用机房内设备的绿色设计、绿色采购和高效管理低功耗IT硬件产品的创新研发、软硬件联合调优创新软件技术应用、软硬件联合设计和调优产业现状发展成熟期,产学研投入高发展成熟期,产学研投入高发展蓬勃期,产学研大量投入在硬件层发展起步期,相关研究较少,缺乏软硬协同关注视角主要参与方能源厂商制冷散热厂商、供配电厂商、管理和软件厂商、第三方数据中心服务商、三大运营商、云厂商IT和网络设备提供商、管理和软件厂商、第三方数据中心服务商、三大运营商、云厂商行业下游使用方、IaaS厂商、PaaS厂商、SaaS厂商、AI厂商、云厂商5算力效用:用于实际产生业务价值的有效算力/数据中心所供给的硬件算力,即算力利用效率。userid:488760,docid:137404,date:2023-08-23,sgpjbg.com面向算力应用环节的计算绿色化白皮书9第三章应用环节计算绿色化的行业问题分析(一)行业需要关注面向应用的算力效用提升当前行业重点关注数据中心电能利用效率PUE等指标,但优化空间在逐渐缩小。数据中心是算力生产环节的主要载体,其能源利用效率一直是产业关注的重点。如图3所示,是目前全球数据中心的PUE的平均值变化情况。当前,国家鼓励高效IT设备、高效制冷方案、高效供配电系统、先进储能装置等技术方案应用于数据中心创建、运维、改造的全过程,降低以PUE为代表的能耗指标。截至2023年6月,我国累计建成196家国家绿色数据中心,行业内先进绿色中心电能利用效率降至1.08左右,达到世界领先水平。但伴随产业蓬勃发展,PUE指标优化空间不断减少,局限性逐渐显现。来源:互联网公开资料整理图3全球数据中心PUE平均值变化情况与此同时,行业对于通过数据中心所产生算力的利用效率的关注度尚且不够,存在较大优化空间。麦肯锡早期曾做过一个调研6,商用和企业数据中心的服务器很少超过6%的利用率,而高达30%的服务器处于“昏睡”状态,一直在耗费电力但没有提供有用的信息服务。国际数据中心认证标准组织UptimeInstitute的数据7也提到美国30%的服务器实际上处于“休眠”状态。站在端到端绿色算力视角来看,在应用环节提升算力利用效率从而实现碳减排有着很大的优化空间。但是,目前绿色算力相关行业组织及相关标准主要的关注点都在数据中心及其相关设施能效,对于面向应6McKinseyandCompany,RevolutionizingDataCenterEfficiency,https://www.sallan.org/pdf-docs/McKinsey_Data_Center_Efficiency.pdf7TheUptimeInstitute,https://uptimeinstitute.com/research-publications/asset/comatose-server-savings-calculator面向算力应用环节的计算绿色化白皮书10用环节的算力效用关注很少。以标准为例,目前与绿色算力相关的节能减排标准多集中在数据中心环节,例如ISO/IEC30134系列标准8和GB/T40879-20219中主要定义各种与数据中心能效、算效相关指标和评测方法。随着算力产业链条脉络逐渐明晰,针对算力资源进行合理分配逐渐成为产业关注重点和绿色化发展的关键。总体来看,当前业界尚没有相应的组织或者标准,聚焦在应用环节的算力浪费问题,并提出系统性的解决方案或评估体系。如何精细化的利用算力,提升算力利用效率,是端到端绿色算力的一个重要方面。(二)算力应用企业尚未广泛应用绿色计算的问题分析1.应用环节企业尚缺乏绿色意识在这里,我们将绿色意识分为三个阶段。处于第一阶段的企业尚未树立节能减排意识,以高能耗为代价一味追求高速发展。随着国家“双碳”战略的推进以及各类政策文件要求落实,企业开始向下一阶段过渡。处于第二阶段的企业,逐步建立减碳、节能、降本的目标,但绿色意识与业务目标和技术应用相分离,绿色意识成为孤立的一环,甚至成为额外的负担。近年来,许多领先企业开始向第三阶段跨越。这些企业意识到,包括绿色减碳在内的ESG可持续发展理念,需要和业务发展深度结合,将可持续发展作为商业目标、技术发展以及核心竞争力构建的一部分。ESG与战略的融合,推动企业将绿色理念应用于不同场景并贯穿业务发展的始终,这也是企业采取行动,通过治理和技术手段实现绿色的前提条件。2.在应用环节尚缺乏有效的算力绿色度量框架和工具对于建立绿色意识的企业来说,另一个挑战来自于如何评估绿色度,也就是建立对于有效算力进行衡量的指标。这其中包括两个层面,一个是在业务层面,如何评估单位业务价值创造消耗的能源和碳排放量;另一个是在技术层面,如何衡量不同技术解决方案的算力利用效率。目前,绿色计算相关行业组织及相关标准主要的关注点都在于数据中心及其相关设施能效,提出包括电能利用效率PUE、水资源利用效率WUE、碳利用效率CUE等被行业普遍采用的指标。但对于算力应用环节的效率评估,行业尚缺乏通用指标。无法从算力应用角度评估绿色度,便无法在业务量增长的情况下,判断算力开销增长是否合理,难以明确问题所在和提升路径。8https://www.iso.org/standard/63450.html9《GB/T40879-2021数据中心能效限定值及能效等级》面向算力应用环节的计算绿色化白皮书113.应用环节的企业缺乏行之有效的绿色优化解决方案与实施路径提升绿色度是一项系统性工作,涉及到从顶层战略、业务设计、治理模式到技术支撑的全面规划与协同。处于不同行业的企业,由于其业务特征、基础设施、技术能力等差异,面临不同的导致算力利用效率低的问题,其解决路径也各异。对于非云基础设施的企业来说,存在算力资源利用缺乏弹性、资源独占造成浪费等问题。因此,许多企业通过基础设施云化或者上云,实现资源共享、弹性伸缩、按需付费等,在提升灵活性的同时降低算力资源成本。但随着企业上云实践深入,发现在云的基础架构下,仍有大量资源被浪费,如何通过工具有效管理云成本是许多上云企业面临的难题。除了基础设施之外,企业也面临大量软件工作负载优化的问题。例如,如何改进代码逻辑以提升业务实现效率,如何实现数据库计算和存储提效、缩短资源占用时间,如何通过优化人工智能建模和训练框架降低对智能算力的消耗等问题。目前,业界普遍缺乏自上而下系统化的绿色优化解决方案和实施路径,且缺乏具有指导价值的各行业标杆落地案例。面向算力应用环节的计算绿色化白皮书12第四章应用环节计算绿色化的技术分析(一)应用环节计算绿色化的定义针对前述的行业痛点,在此提出在应用环节中面向算力效用提升的计算绿色化定义,具体如下:l目标:在满足业务需求的前提下,通过提升算力利用效率实现节能减碳;l定义:面向规模化、数字化的业务计算需求,通过计算平台系统架构升级、业务软件更新以及业务应用与平台系统协同设计等方法,提升硬件算力资源在使用过程的效用,从而实现节能减碳的绿色计算技术。进一步展开来看,企业可通过实现以下四方面能力来持续提升自身在应用环节的计算绿色化水平:1.绿色监测评估能力:具备从数据中心碳强度感知、全局资源和单个工作负载等多个维度,对算力效用水平和碳排放量进行持续评估的能力对企业来说,可持续的算力效用提升需要具备“可视化”能力,即:第一需制定可量化的绿色计算目标,并建立全面的绿色度评价指标、监测和度量体系;第二通过绿色计算工具从全局资源和单个工作负载维度,持续监测和度量不同方案对算力利用效率的提升程度,评估方案的有效性、目标达成情况以及企业投入产出的效果等。全面的绿色度指标体系需能够对于数据中心的碳强度感知(是否选择了更低碳成本算力)、集群全局的算力资源利用率、工作负载层面的算力消耗情况等的实现效果都进行度量。同时,指标体系还需要考虑到不同行业和场景对于算力需求差异性带来的影响,并具有较低的持续监测和评估实施成本,才能融入企业生产经营中,成为绿色计算工作的度量尺和指挥棒。2.低碳算力选择能力:具备更低碳成本算力供应商的选择能力及迁移能力随着数据中心和云计算的发展,企业可以选择自建数据中心或使用云计算厂商服务来满足算力需求。过去,选择自建或外采,主要是从安全、合规、性能以及成本等因素进行考量,现在在“双碳”目标大背景下,企业在进行算力供应商选择时,也需要逐渐考虑算力供应商的算力碳强度,并能够以较低成本迁移到更绿色低碳的算力供应商。其中包括两个维度的能力:第一,感知供应商的算力碳强度的能力。企业或基于供应商的主动披露、或基于碳效评估指标以及相应的监测工具计算,能够有效感知和衡量不同数据中心、不同云厂商、不同算力硬件厂商的面向算力应用环节的计算绿色化白皮书13能耗和碳排放水平等,帮助企业从绿色采购的角度来评估不同供应商的算力碳强度水平,支撑后续算力供应商的选择决策。第二,具备向更低碳绿色算力供应商迁移的能力。企业在进行算力供应商选择时,应综合评估性能、安全、算力碳强度等指标,并形成有效的决策机制,当有更低碳绿色的算力来源时可以低成本进行迁移或者切换。在迁移或切换时,根据实现方案不同,企业可以是将全部业务工作负载、或部分业务工作负载的应用、数据等在有限时间内平滑地在不同数据中心之间、或在不同云厂商之间、亦或在多样化硬件算力服务器之间进行迁移,并同时保障业务连续性。3.全局资源调度优化能力:具备全局算力资源分配和优化的能力,能通过全局的分配与调度,提升算力效用在选择更低碳强度数据中心的基础上,下一步则是对物理资源进行灵活管理以提升硬件算力资源的利用效率。灵活管理的前提是能够让算力摆脱硬件算力产品的物理限制,实现更细颗粒度的管理和分配,具备可全局资源调度的基础。例如,通过虚拟化等技术,企业可以把不同硬件基础设施资源池化,从而可支持将一份物理硬件分解成多份进行复用,也可以将多份物理硬件抽象为一份统一调用,构建出资源弹性伸缩、业务按需使用、用量可度量的基础能力。在具备全局资源调度能力的基础上,基于容器化等技术,在保障隔离性、安全性、稳定性等前提下,可以根据不同业务算力需求特征,进行混合部署、统一管理,从而实现全局资源利用效率优化。4.工作负载优化能力:具备持续优化工作负载算力使用的能力,通过更低的算力消耗完成相应的业务功能工作负载是指一系列资源和代码,面向应用场景完成承载商业价值的业务计算任务,如面向客户的应用程序等。对企业来说,除了全局层面的资源调度和优化能力外,还可以针对具体工作负载进行优化,从而进一步提升整体的算力资源利用效率。一般来说,一个完整的应用场景需要多种不同的工作负载相互组合来实现。目前常见的工作负载类型包括智能计算(如AI模型训练和推理)、数据库存储、大数据分析、在线任务等。值得关注的是,今年以来伴随ChatGPT的火爆出圈,带动了AI大模型技术和产业应用的爆发式增长,其对智能计算的工作负载算力需求明显增长,底层算力的资源约束已成为企业发展和使用大模型的关键卡点,并由此也带来了智能计算能耗和碳排放的急剧提升。因此,如何通过更为绿色低碳的AI技术来优化智能计算工作负载,既是行业共同关心的话题,也是制胜大模型时代的关键能力。面向算力应用环节的计算绿色化白皮书14(二)企业在算力应用环节面临的算力效用提升挑战当前企业在算力应用环节的资源利用率普遍较低,背后原因主要来自于业务需求波动导致预留资源浪费、任务调度不合理导致资源分配浪费、系统架构和应用软件设计不完善导致资源使用效率低等,具体到不同的行业和应用场景中存在一定差异性。考虑到当前算力第一大应用领域是互联网行业,对算力的需求占整体算力的约一半份额,且当前互联网公司也是在应用环节采用计算绿色化技术推动算力效用提升的主要实践者。因此本节将主要结合互联网公司的典型业务需求特征,来分析在业务应用环节进一步提升算力利用效率的主要挑战,具体可分为下述三类:1.互联网业务特征:需要过多资源预留导致浪费不同类型业务在不同时段存在业务量潮汐波动属性。以在线服务类业务为例,需对用户使用需求进行及时响应,因此对产品服务的实时性、可用性的要求较高。而在线产品服务又通常具有时间维度的流量特征,即在不同的时段业务服务流量有波峰和波谷相对规则的潮汐波动属性,如图4所示。面对流量波动,为保证业务稳定性,一般需要在资源上预留出较大的剩余空间以应对,带来服务器算力资源的浪费。图4不同类型业务的业务量潮汐波动属性示意图面向算力应用环节的计算绿色化白皮书15互联网业务经营活动中存在临时性高峰期。由于业务需要,互联网业务经营需支持临时性高并发运营活动,例如电商业务的大促活动等,带来短期内服务流量的聚集,在某一时刻或者时间段部分业务服务具有临时的服务峰值。业务服务峰值具有流量大、持续时间短等特点,对临时性资源消耗较大,目前一般通过增加服务容量云资源购买、降级或限流部分服务质量等方式以支持整体业务服务的可用性和性能稳定性等。互联网业务多样,包含多种工作负载类型,存在异构算力需求降低硬件资源复用程度的情况。互联网已深入到多种业务场景,并在不断朝向智能化升级,由此也带来了多样性的工作负载类型。不同工作负载类型具有各自属性特征,例如,在线业务工作负载具有高敏感和低时延的属性要求,离线计算(如AI模型训练、数据挖掘等)对时延和敏感性要求低,但对计算能力和存储空间要求较高等。由此,不同工作负载类型对硬件算力需求不一,如在线业务CPU利用率不高、离线计算CPU利用率高、智能计算业务对于CPU要求不高但对于GPU要求高等,给异构硬件算力资源的采购、调配和复用等带来一定挑战。2.互联网架构特征:分布式、虚拟化等设计带来资源浪费互联网企业常见的分布式架构带来资源冗余浪费问题。随着业务的快速发展,软件技术和架构也在日新月异,软件从集中式单体架构演进到分布式架构,分布式架构解决了单体集中式服务耦合度高、容错率低、并发性差等问题的同时,也带来了系统调用复杂、网络开销高、服务器资源冗余浪费等问题。分层抽象后的计算架构会降低总体计算效率。随着云原生技术的发展,为提升架构清晰度、扩展性和接口标准化,互联网平台的架构设计一般会进行分层抽象,由此在基础服务层承载了大量的分布式协调、服务监控、服务管理、虚拟化运行态支撑等基本能力,这些系统服务能力本身也会带来较高的算力消耗,并降低整体在面向业务服务逻辑处理的有效算力占比,如图5所示。面向算力应用环节的计算绿色化白皮书16图5计算架构示意图出于安全合规等需求在部分业务中需采用资源独占设计,也会带来资源浪费问题。在一些情况下,或出于符合监管合规要求、或是为确保核心业务系统的高可用等原因,在部分工作负载或业务服务中,采用了服务器算力资源独占的设计方式,与其他工作负载或业务进行隔离从而增加稳定性和安全性。但相应地,这种设计方案也会丧失被独占资源调配的灵活性,资源无法共享带来硬件资源浪费。3.互联网系统实现:软硬件结合上仍有较大优化空间融合异构硬件算力、充分发挥软硬件结合潜力,对互联网系统架构的设计和实现有一定门槛要求。软硬件的结合程度未能充分发挥硬件的性能潜力,如很多企业还没能根据服务框架、计算框架、存储引擎的属性进行硬件性能动态调节优化(如动态调节硬件电压频率等)来发挥其潜力。此外,融合异构硬件算力需要面对不同的系统架构、指令集和编程模型,并要实现性能的多样性合一,使其同时满足在线、人工智能训练、推理、图像视频处理等各种不同业务需求,也具有较高的技术门槛。平台架构和算法设计的智能化程度还有待进一步提高。对于一些领先企业来说,目前已经开始在算力资源调度中,运用AI和大数据能力进行历史数据、趋势和归因分析,通过建立场景模型来预测未来业务流量对资源的需求、并驱动调度智能化来进一步提升算力利用效率。但这种智能化的平台架构和算法设计目前还没有得到普及,有待进一步从应用广度和深度上不断深化。(三)算力应用环节计算绿色化的关键技术要素算力应用环节计算绿色化的关键技术要素如图6所示,主要包括建立连续观测机制、支持多供应链、全面云原生化、无服务器化和实施平台工程等。从技术实现角度看,可参考的技术框架如图7所示。面向算力应用环节的计算绿色化白皮书17图6计算绿色化关键技术要素概览图7计算绿色化技术实现参考框架面向算力应用环节的计算绿色化白皮书181.建立连续观测机制该技术要素主要是为了支撑绿色监测评估能力的实现。绿色计算要求企业在数据中心层面,一方面对于数据中心的碳效进行持续的监测和评估,另一方面对数据中心的工作负载做持续的算力消耗优化,降低工作负载的处理成本,而这正是连续观测机制所解决的问题。面向数据中心层面,企业需要将相关监测指标与碳排放相关联,以此度量业务运行时硬件层面的碳强度。目前,随着业务发展中的低能耗要求提升,常见的监测指标从CPU利用率、存储利用率、网络利用率等延伸至面向业务的综合算力效用指标。企业一般依据业界标准统计数据中心碳强度,或通过算力供应商的碳强度查询API接口获取。面向数据中心工作负载层面,企业同时关注面向业务的算力利用效率优化与其所对应的能耗观测。一般而言,在完成同一件事情的情况下,工作负载所消耗的资源越小,其计算绿色化的水平就越高。从持续改进优化的需求来看,需要通过监测工具实时地、清晰地针对各种类型的工作负载构建出资源消耗的观测能力和合理性评估能力,常见技术路径包括性能持续分析(ContinuousProfiling)等。具体而言,企业可通过建设持续性能分析(ContinuousProfiling)技术,实现实时地、低开销、可持续地观测和分析工作负载的资源消耗,识别性能瓶颈,优化系统的性能表现,提升工作负载的处理速度和降低处理成本。相比可观测领域Metrics/Logging/Tracing等基于事件日志和指标采集进行观测的方式,ContinuousProfiling可以深入到系统内部,对应用程序、服务内部的行为以及执行过程进行剖析,获取更底层、更细微的观测数据,提供快速定位资源瓶颈以及根因分析能力。一方面,ContinuousProfiling比Metrics/Logging/Tracing具备更加白盒化的能力,如线程、代码、函数级别的消耗分析;另一方面,ContinuousProfiling的消耗远低于传统的Profiling或者Debugging技术,且功能更为丰富。此外,在互联网业务使用最广泛的Java场景实践中,在基于业界常用Java性能分析工具(如JFR+Async-profiler方案)基础上,企业还可使用JVMTI(Java虚拟机工具接口)、Linuxkernelx86instructiondecoder(x86指令译码器)、LinuxGOT(全局偏移表)等一系列动态追踪技术机制,结合中间件、内核、微架构实现更全面、更精准且额外消耗更低的性能分析方案,持续帮助核心业务降低头部应用的资源消耗,并致力于服务的耗时优化、日常的故障排除(Troubleshooting)。2.支持多供应链该技术要素主要是为了支撑低碳算力选择能力的实现。多供应链概念的提出是为了企业能够通过多供应链来屏蔽不同厂商的技术细节,从而具备更灵活的技术选择能力和更强的供应链韧性。发展至今,多供应链的内涵已经进一步延伸到“对算力供应商碳强度的灵活选择能力”。具体而言,不同算力供应商的算力碳强度存在较大差异性,差异性来自于多种因素,比如所使用的上游可再生绿面向算力应用环节的计算绿色化白皮书19色能源占比、算力产生过程中所使用的不同硬件基础功耗水平及硬件利用率上升带来的功耗增长速率等。当前,部分算力供应商也在把低算力碳强度作为其产品服务的差异化竞争点之一,例如GoogleCloud就对其云客户开放了碳强度的查询API接口10,可以让客户对使用其云服务的碳排放情况进行监控和核算。对于算力使用方而言,在服务器等硬件设备采购以及云厂商选择时考虑算力碳强度等指标,已成为企业实现绿色计算的重要手段之一。面对不同算力碳强度的数据中心和云厂商,企业可以通过算力归一、多云技术等,实现统一和集约化的管理,对更低碳强度的数据中心或云厂商具备算力迁移的能力,从而降低企业自身的碳排放总量。数据中心迁移:对于企业而言,需要综合评估算力供应商的算力服务能力与算力碳强度指标,具备平滑迁移能力,实现在不同碳强度算力供应商之间的灵活选择和平稳过渡。数据中心迁移需涵盖算力基础设施之上的系统、数据与业务的迁移,在迁移时需根据原有及目标算力基础设施的具体情况来评估相应的技术路径,并使用数据同步工具、云迁移工具等进行配套实施。在此过程,数据安全、备份和容灾机制、业务连续性等都是需要着重考虑的因素。算力归一:对于直接采购算力硬件自建数据中心的企业来说,不同算力硬件存在异构、异芯的差异,以及对应的算力碳强度不同。对于数据中心而言,为支持更灵活的低碳算力选择和迁移能力,需要屏蔽底层算力差异,实现更统一化和集约化的管理,即通过算力归一的方式,统一管理来自多方供应链的算力资源,实现应用与芯片架构的彻底解耦,推动业务应用层面的无感知使用和低成本切换。具体而言,以CPU的算力归一为例,随着企业服务器规模的持续扩大,以及CPU硬件架构的持续迭代,服务器可能会涵盖多种品牌和类型的CPU硬件,包括Intel、AMD、ARM等,不同CPU厂家/品牌的各种CPU型号在性能上存在明显差异,且不同代的CPU之间存在较大的算力差异。如不进行归一化处理,较早代的CPU提供的算力明显低于较新代的CPU,对运行在较早代CPU上的业务会带来较大影响。通过把不同硬件架构的CPU算力归一化,对上可屏蔽不同CPU的架构差异,体现出统一的计算能力。此外,算力归一化后,运行在不同的CPU上的业务会被分配不同的CPU核数,比如原来性能较好的CPU会被分配更少的核数就可以满足业务性能需求,而性能较差的CPU则会被分配更多的CPU核数来满足业务性能需求,如图8所示,这种方式可让业务性能得到统一,运行在不同CPU上的业务性能都保持一致,充分使用每款CPU的资源,有效提升混合集群资源的效率。10https://cloud.google.com/carbon-footprint?hl=zh-cnGoogle云碳足迹查询接口服务面向算力应用环节的计算绿色化白皮书20图8不同硬件芯片的算力归一化3.全面云原生化(Cloud-Native)该技术要素主要是为了支撑全局资源调度优化、低碳算力选择/迁移等能力的实现。云原生的本质是实现业务与资源的匹配、灵活调度并按需分配计算、存储、网络等基础设施资源。全面云原生化可充分利用云的弹性避免非峰值时期的硬件资源效率过低,从而带动技术架构、应用效能等方面的绿色低碳。一方面,通过配置和调度对象的标准化来提升资源调度层面的普适性,并在此基础上通过全局的资源配置和调度以更高效地提升数据中心整体的资源利用率和计算绿色化水平;另一方面,可利用云的弹性提升在不同时间段和工作负载下的硬件资源效率。在云原生计算基金会(CNCF)的定义中,云原生主要包含了如下关键技术:容器化、服务网格(ServiceMesh)、容器编排(Kubernetes)等,能够从资源和流量调度的角度,助力数据中心实现全局资源的合理配置。容器化:当需要在整个数据中心的维度,通过全局的资源配置和调度来提升整个数据中心的资源利用率时,被配置和调度的对象的标准化就显得特别重要。容器是一种轻量化的计算单位,它以抽象和标准化的形式赋予应用独立运行的能力,并具备在不同计算环境当中可移植、可拓展的能力。未来,云原生技术将逐渐向数据中心下沉,通过全面拥抱容器化,把数据中心的调度对象标准化为统一单位,实现全局资源配置和调度,从而可提升整个数据中心的资源利用效率,实现绿色减碳。服务网络:当涉及到调度的时候,除了资源的调度还要配合流量相关的调度。服务网格作为微服务时代的TCP/IP协议,能够面向云原生应用实现服务间可靠的通信请求传递,并做到应用程序的无感知与治理能力独立。相较于SOA、微服务等架构,服务网格不仅强调业务逻辑的解耦和复用,更强调基础设施的解耦与复用,实现服务间通信通过网格进行代理。一方面使得业务开发与基础技术开发分离,提高研发效能;另一方面当涉及到调度时,能够通过Sidecar实现对于应用的透明代理,无缝的应用流量调度,快速的微服务弹性管理,从而提升资源管理能力和利用效率,助力计算的高效。面向算力应用环节的计算绿色化白皮书21容器编排:Kubernetes作为容器集群调度管理引擎的事实标准,未来也将从应用的托管扩展为算力基础设施的托管。它提供了基础的容器调度能力和自动弹性伸缩的能力,并提供了足够的开放性,支持算力使用方根据自身业务特点进行定制化的开发,能够进一步提升数据中心的资源利用效率。随着可持续软件等概念的发展,Kubernetes的构建方式也会更关注低碳意识和系统技术间的平衡,在调度时纳入对于碳强度指标的关注,从而实现资源分配时高效与低碳的兼具性。具体而言,企业可以基于开源的Kubernetes打造容器调度平台,通过统一容器应用接口、弹性调度架构等技术为业务应用提供智能弹性容量、分时智能调度以及在离线混合部署等云原生容器编排能力,帮助企业上层各类业务实现资源统一管理、应用容量高可用保障、异构硬件无感知屏蔽、基础资源最大化分时复用等效果。在资源管理上,可以基于Kubernetes定义一套统一的容器应用接口API,上层业务通过标准化的容器API对集群资源进行管理和使用,简化大规模集群资源管理的复杂度,精细化异构算力资源管理,实现算力资源按需分配和高效利用。在应用容量保障上,结合人工智能和大数据资源画像能力,可以对上层业务应用未来24小时资源的使用需求进行预测,再通过水平弹性伸缩技术(HorizontalPodAutoscaling,简称HPA)和垂直弹性伸缩技术(VerticalPodAutoscaling,简称VPA)来实时调整应用的数量和规格,做到每个业务应用容量的秒级高可用保障,实现业务稳定性为前提的绿色化。在基础资源调度上,可结合服务网格(ServiceMesh)带来的流量快速调度技术,通过分时智能调度技术把同一份资源以小时为粒度切割成可供调度的24份资源,再将不同时序特征的在线应用编排在同一份资源上,做到一份资源多次分时复用,最大化利用资源。此外,在节点部署上还可运用在离线混合部署技术,将在线应用和离线任务编排部署在一个节点,通过安全容器隔离、资源共享、资源抢占等技术保障在线应用运行时不受离线任务干扰,利用离线任务充分使用在线应用空闲资源提升机器资源利用率。4.转向无服务器化(Serverless)该技术要素主要是为了支撑全局资源调度优化、工作负载优化等能力的实现。Serverless是云原生技术发展的高级阶段,让开发者可以更聚焦在业务逻辑,而减少对基础架构的关注如服务器的配置、扩展和运维等。Serverless主要是指应用软件与服务器的物理限制解耦,利用包括资源池化、存算分离等技术,避免硬件资源例如内存大小、存储带宽等成为应用软件的瓶颈。在算力资源调度过程中,调度算法的能力和被调度对象的大小、伸缩能力都会影响调度的效果。一般而言,被调度的工作负载所需的资源规格越小、启动速度越快、伸缩能力越强,就越容易被调度。结合Serverless的理念以及企业内部应用发布模式的现状,可以把在线应用分为三种发布模式:面向算力应用环节的计算绿色化白皮书22应用级发布模式、模块级发布模式、函数级发布模式,并同时推进三种发布模式的Serverless化演进。具体而言:针对应用级发布模式的Serverless化,企业可以在基础设施平台实现三个能力:流量驱动实例分组能力,规范应用的流量入口,在不修改代码的情况下,平台提供按流量入口启动、按需加载功能的能力,不同的流量入口可以调度到不同的实例分组内;自动化运维的能力,平台提供了配置代码化和运维自动化能力,应用可以托管整个部署过程以及部署后的引流、应急、成本等决策项,常见的有应用发布、扩缩容、编排、弹性伸缩、限流、故障自愈等,应用可以按需接入托管;资源调度托管能力,平台提供软硬件资源的申请、分配、使用、调度等决策项,应用无需关心实际的资源使用。针对模块级发布模式Serverless化,企业可以将一个完整应用拆成基座应用和不同应用模块。通过这种灵活的结构,上层应用模块可以直接安装/发布到基座应用上,获得非常快速的启动速度以及Serverless的研发体验,可降低业务使用上的消耗。更进一步,对于一些新的业务和场景,企业可以实现函数级发布模式Serverless化,把部署运维粒度从微服务级别降低到函数级别,以此来实现极简研发、快速部署、免运维,从而进一步提升研发和运维效率,也进一步提升部署的密度,提升CPU利用率。此外,除了在线业务的Serverless,企业也可推进存储系统的Serverless化工作,以存储计算分离为基本,对存储层在Kubernetes上构建适合存储的Stateful的Workload的能力,使得存储层可以做到一定程度的弹性伸缩,对计算层,相对无状态,采用快速的弹性伸缩的手段,在一定程度上可实现存储系统的Serverless化。5.实施平台工程该技术要素主要是为了支撑低碳算力选择、全局资源调度优化、工作负载优化等能力的实现。平台工程(PlatformEngineering)主要指应用与系统软件协同设计、透明研发、部署解耦,系统软件以模块化、平台化方式交付,从而提升产研效率,加快业务迭代速度。平台工程是一门设计和构建工具链与工作流的学科,可以为云原生时代的软件工程组织提供自助服务能力。对于企业而言,往往会面临这样的问题:各类业务应用的运维配置是散落分布在各个系统里面,一个完整的业务在数据中心部署时,往往需要对各个散落的系统配置进行处理和同步,这里面的系统之间的协调工作往往非常复杂。十多年前,DevOps理念被提出,其能够以可持续的方式交付价值,协助产研团队从效率和质量两方面进行提升。从基于内核的虚拟机(Kernel-basedVirtualMachine,简称KVM)到容器再到云原生时代,大量企业投入DevOps运动以期望解决内部规模化运维效率和平台建设效率的困境。但是在企业内规模化DevOps却难以推行,特别是在企业内自持基础设施、同时采用云上技术平台的公司阻力最大。原因多种多样,如研发团队和运维团队存在部面向算力应用环节的计算绿色化白皮书23门墙、各自为政、领导者缺少洞察等原因,都可导致DevOps实施有巨大阻力。平台工程作为DevOps理念的演进,本质目标是让开发人员自助服务从而达到降本增效的目的。在云原生理念和技术广泛应用的今天,面向大量高度开放、可配置的平台技术,带来了成百上千的应用配置,对PaaS领域的业务复杂性、高稳定性和统一治理提出更高的要求。平台工程的目的正是为了让应用研发者尽可能简单、无痛地参与到这种规模化的DevOps工作中。平台工程一般可对应到能涵盖应用程序整个生命周期的内部开发平台产品(InternalDeveloperPlatform,简称IDP)。以平台工程的产业实践为例,企业可通过强化客户端的工作方式,将围绕应用运维生命周期的模型、编排、约束和策略稳定、可扩展性,通过专用语言KCL(一种声明式的云原生配置策略语言)编写维护在共享代码仓库中。共享代码库作为内部工程平台向研发者开放的编程界面和工作空间,可以帮助应用研发者以统一的编程界面编写围绕应用运维生命周期的配置和策略,并编排和使用存量和新增的平台基础设施,按需创建管理云原生环境以及基于RBAC(RoleBasedAccessControl,即基于角色的访问控制)的权限,并通过GitOps方式(一种持续交付方式)管理交付过程。同时,通过monorepo的代码管理方式提供分治的、可组合的工程结构设计、代码组织、建模方式、工作流程定义和配置(Provision)技术选择支持,并以一致的研发模式和工作流承载可扩展的业务需求。在上述的计算绿色化关键技术要素基础上,企业还可结合自身业务情况和技术发展方向,着重对主要工作负载进行优化,从而进一步提升计算绿色化的整体效能。此处主要对行业中较为常见的智能计算、在线业务等工作负载优化方法进行介绍。智能计算工作负载优化方面,该类型工作负载主要是指需要进行大量计算、分析和处理的人工智能应用程序或服务,一般需要使用大量的数据和复杂的算法来进行机器学习、深度学习、自然语言处理等任务。随着ChatGPT引发的AI大模型技术爆发式发展和应用,AI相关能耗和碳排放问题也愈加突出。该方向上行业中已有科技企业探索了绿色AI体系,主要包含算法提效和工程提效两个方面。算法提效上,通过在算法生命周期各阶段(数据-训练-实验-推理)的优化措施来提升整体算力效能(单位算力所带来的业务价值提升),开发了PV间(即PersistentVolume,持久卷)以及场景间的智能算力分配的能力,使得算力能够往更加有业务价值的地方倾斜。在对算法绿色衡量方面,尝试定义了一个PFEC指标,即PFEC=效果(Performance)+算力(FLOPs)+能耗(Energy)+CO2排放量(CO2Emission),如图9所示,通过自动化的数据采集能力,评估算法在单位能耗下的效果。在工程提效上,覆盖了从初始化到运行时的任务全生命周期覆盖,包括从初始化的参数配置到运行时的并发和资源多目标动态算力优化、从单任务算力优化到多任务联合的调度优化、混合部署GPU中长生命和短生命周期计算任务的动态分时调度等,以实现全局和全天的算力优化。面向算力应用环节的计算绿色化白皮书24图9算法绿色度衡量指标示意图在线工作负载优化方面,该类型工作负载主要是指需要进行实时通信和处理的应用程序和服务,如支付、移动应用程序、在线游戏等。在线工作负载有非常高的稳定性和连续性要求,且因内部流量和外部用户行为存在经常性突变,导致业务流量来源和模型复杂,一般来说需要通过预留资源来应对,存在较大的算力浪费。企业可通过AI弹性容量、分时调度技术实现在线工作负载的优化。AI弹性容量主要是指通过积累生产环境的业务流量历史数据,基于AI算法刻画出在线业务的流量画像和应用画像,并对接下来的在线业务资源需求进行预测,结合自动资源扩缩容(AutoScaler)方案执行相应的资源水平弹性伸缩或垂直弹性伸缩的变更。同时,面对在线应用在同一天内有不同流量峰值的特点,可采用云原生分时调度技术,基于ServiceMesh的精细化流量调拨、ElasticHeapJVM、容量平台资源弹性伸缩和Sigma调度器等技术,可以灵活控制节点上资源的使用,在不同的时间段把资源分配给需要的应用(激活态应用),限制不在流量峰值的应用资源使用(保活态应用),从而达到将一份资源在不同的时间段提供给多个应用共享的目的,可以极大提高资源效率。面向算力应用环节的计算绿色化白皮书25(四)绿色计算行业实践案例实现计算绿色化需要以四大能力为核心方向,持续构建绿色计算关键要素体系,并不断优化更新。伴随越来越多的企业关注可持续发展,并陆续发布自己的“碳中和”路线图,国内外科技企业均在通过多种方式探索企业的绿色低碳实现路径,其中的重要措施之一就是应用绿色计算技术来提升算力在应用环节的效用。国外企业以Google为例,其“碳中和”目标是到2030年实现在所有业务和价值链中的净零排放11。为了实现这一目标,Google采取了多种措施来降低其算力生产和算力应用环节中的碳排放,包括:尽量采购和使用可再生能源,并应用于数据中心中产生更为清洁的算力12;建立绿色监测评估体系,通过碳强度感知(CarbonAwareness)能力持续监测服务器所使用算力的碳强度,并结合数据分析和AI技术实现工作负载层面的低碳算力选择13;通过虚拟化、云原生等技术实现资源的全局调度优化,并支持不同工作负载(如搜索、支付、视频等)的混合部署,提升服务器的算力利用效率14等。国内企业以蚂蚁集团为例,为了实现2030年达成净零排放的公司ESG目标,蚂蚁从2019年开始探索绿色计算技术,具体包括:通过绿色观测和优化体系持续探测工作负载的资源消耗并进行资源优化;通过池化等技术手段把异构服务器算力归一,以标准化的方式提供统一算力服务,隔离异构算力的复杂性;通过弹性算力统一调度、性能优化等,提升系统性能,并通过容器化减少设备依赖,虚拟化平台将上层的应用软件和下方的物理设备隔离开,上层应用无需关心物理设备的具体细节,只需要对标准化环境部署应用;通过实践平台工程和配置代码化高效快速的进行资源弹性伸缩,提高运维效率和业务峰值活动支撑能力;通过Serverless化,让工作负载本身更加容易被弹性伸缩和被调度;结合蚂蚁自身业务需求,着重对存储工作负载、AI智能计算工作负载以及在线工作负载进行了优化等。11https://sustainability.google/operating-sustainably/net-zero-carbon/12Google2023年环境可持续报告,https://www.gstatic.com/gumdrop/sustainability/google-2023-environmental-report.pdf13https://blog.google/inside-google/infrastructure/data-centers-work-harder-sun-shines-wind-blows/14HowareGoogledatacenterspoweredsustainably?,https://www.youtube.com/watch?v=UFK4hqeRhIc面向算力应用环节的计算绿色化白皮书26第五章应用环节计算绿色化产业实践路径面向应用环节的计算绿色化是未来绿色算力发展的重要组成部分和发展趋势,需要包括政府机构、行业联盟、产业智库、技术厂商、应用企业等生态各方共同协作,才能有效推动该领域的技术创新和产业落地,加快该环节的提效节能、绿色减碳发展步伐。(一)行业视角的产业实践路径产业政策方面,可结合我国“双碳”和算力新基建战略,在算力产业发展政策中增加对于应用环节计算绿色化的政策引导。近几年,为进一步促进新型基础设施高质量发展,深化大数据协同创新,工信部、发改委分别印发《新型数据中心发展三年行动计划(2021-2023年)》、《全国一体化大数据中心协同创新体系算力枢纽实施方案》等多个产业政策文件,关注重点是数据中心的绿色可持续发展、以及优化算力资源需求结构并构建一体化算力服务体系等,尚没有对应用环节的算力利用效率较低问题产生足够重视。建议应站在端到端的全链条绿色算力视角,在后续算力产业发展政策中提出对于应用环节的计算绿色化的相关产业推进政策或工作要求,进一步完善我国绿色计算产业的相关政策,使其更为全面、体系更为完整,从而带动实现更大程度的总体节能减排效果,支撑我国“双碳”战略发展落地。行业落地方面,宜总结行业应用试点案例,形成可借鉴和规模化应用的参考指南。如前所述,总体来看当前行业整体的服务器算力利用效率仍处于较低水位。对于下游算力应用企业,在逐渐具备了绿色意识之后,对于如何采用有效的措施来实现计算绿色化仍缺乏可供借鉴的参考案例。因此,现阶段打造或者遴选行业应用试点案例,形成可借鉴和规模化应用的参考指南,对于推进绿色计算技术的应用和落地具备较大标杆性意义。考虑到不同应用场景对于绿色计算的需求有所不同,建设应用试点案例时还需结合行业和实际应用场景,例如可先从互联网、金融等当前数字化程度或者基础设施云化程度较高的行业切入。此外,统筹规划绿色计算全产业链条和区域分布,在一些绿色计算产业基础较好的地区,可考虑纳入到先导产业范畴并加以引导,出台地方绿色计算产业政策,重点弥补短板和卡脖子环节,做到技术链、产业链、创新链自主可控等。实施效果衡量方面,需进一步研究能有效衡量算力效用水平的计算绿色化评价指标,并构建和落地相应评估评测体系。19世纪的物理学家开尔文曾说过“如果不能测量,就难以改进”。当前,行业中比较关注数据中心的绿色度指标,并且已经制定了一系列比较成熟的评价指标及相应的评估体系,如电能利用效率PUE、水资源利用效率WUE、碳利用效率CUE等,并在推动数据中心绿色化过程中发挥了巨大作用。同样,面向应用环节的计算绿色化,也需要制定出相应的评价指标和评估体系,才能有效帮助算力应用企业一方面更好评估自身当前算力效用水平,另一方面也可以更好的评估出在该领域的投入产出效果。在这个环节,当前已有一些尝试,包括ISO/IEC23544:2021面向算力应用环节的计算绿色化白皮书27制定的ApplicationPlatformEnergyEffectiveness(APEE)指标15、开放数据中心委员会在《数据中心算力碳效白皮书》16中定义的算力碳效指标,以及国家人工智能总体组在《计算中心有效算力评测体系白皮书》17中提出的有效算力指标及评测体系等。不过总体来看,由于算力应用的行业和场景需求多样性,目前仍需要产业各方共同协作在已有工作基础上进一步深化,并推动构建出可落地的评测数据集以及评测方法等。生态合作方面,应推动产学研用联合,支持发挥绿色技术创新团体组织作用,通过标准开源等方式推动产业创新协同。一是鼓励构建垂直领域的“绿色技术创新联盟”或“绿色技术创新中心”等团体组织,通过发挥垂直领域的绿色技术创新团体的组织作用,促进产学研用等生态各方在关键技术上的协同创新,可以更好地加快绿色技术创新进程,实现技术创新的快速扩散和应用;二是基于绿色技术创新团体组织,支持产业链上下游共同制定关键技术标准和产业落地最佳实践,研制绿色技术评价指标和评测体系,降低技术落地成本和使用门槛;三是鼓励开源创新,并可从开源领军人才引入、开源平台搭建、开源人才教育等方面提供支持,以开源开放为抓手,推动绿色计算产业的规模化发展和技术创新,充分发挥开源在云原生领域中的类似创新推动作用。(二)企业视角的产业实践路径正如成功的数字化转型离不开业务和科技的深度结合,绿色计算的实践同样需要企业自上而下的参与,明确组织层面的愿景和目标,并根据自身算力需求和基础设施所处阶段,制定与企业自身情况相符的能力建设路径,并配套相应的资源以保障项目落地。如图10所示,在企业内部推动绿色计算,可以依次从顶层设计、核心能力构建、实施保障等维度开展。15ISO/IEC23544:2021InformationTechnology—Datacentres—ApplicationPlatformEnergyEffectiveness(APEE),https://www.iso.org/standard/76000.html16开放数据中心委员会发布《数据中心算力碳效白皮书》,https://www.odcc.org.cn/news/p-1592477116649619458.html17《计算中心有效算力评测体系白皮书》,https://www.aipubservice.com/airesource/fs/202207290001.pdf面向算力应用环节的计算绿色化白皮书28图10企业绿色计算建设路径图1.规划企业的绿色计算顶层设计对于企业而言,实现端到端的绿色计算,不仅是响应国家“双碳”政策,履行企业ESG目标所需进行的实践,更是在业务量剧增情况下,谋求高效、降本、可持续的科技发展路径的重要探索。在规划企业的绿色计算愿景目标时,核心应关注:量体裁衣。绿色计算作为企业科技可持续化的重要组成部分,不应孤立存在,需在公司业务与ESG目标框架下,基于企业实际情况制定出可感知、可衡量的指标体系,发挥出链接业务和环境的双重价值。一号位工程。企业推进绿色可持续发展,需要自上而下的战略拆解与机制保障,并能提供充分预算、组织、人才、流程保障等,应是一号位(CEO、CSO、CTO、CFO协同)工程,并由此配置跨部门的虚拟组织体系和流程保障机制,以在执行层面贯彻落地。企业在面向算力应用环节的计算绿色化建设过程中,根据内部对于计算绿色化的认知程度、执行程度和发展程度,大致可以分为表3所示的四个阶段。在实践过程中,企业需明确自身所处阶段,并结合企业绿色化目标,不断动态调整路径和行动,持续向更高阶发展阶段演进。面向算力应用环节的计算绿色化白皮书29表3企业开展绿色计算建设的发展阶段所处阶段核心特征可采取的关键行动阶段1:树立计算绿色化心智该阶段的企业通常已具备ESG目标,基于企业经营诉求明确降本增效的主要投入方向,并开始关注算力应用环节的提效节能,且初步设定有计算绿色化目标,能围绕绿色供应链等环节初步进行简单易行的优化。但由于尚未形成体系化的绿色计算指标体系,该阶段的优化具有散点化、简单化、难以全局感知与度量等特征。Ø确立绿色计算作为企业长期发展愿景之一,并拆解成量化目标;Ø感知算力供应商的算力碳强度,并设计和落地供应链采购绿色度标准。阶段2:建立绿色度体系该阶段的企业针对应用环节的计算绿色化建立了完整的规范体系、指标度量和观测机制,并以此为牵引,开始针对全局和工作负载的算力进行监测和评估,能够根据业务需求匹配所需算力,及时发现并通过试点形式优化过高能耗的算力服务。Ø引入外部评估体系或通过内部自建,开始设计全面、清晰可衡量的绿色度指标体系;Ø通过工具形式,对于软硬件层面的计算绿色化进行感知和度量;Ø根据计算观测结果,进行试点性的算力服务调优。阶段3:投入绿色计算技术该阶段的企业在计算绿色化可感知、可度量的基础上,通过自研/外部引入等形式,进一步投入绿色计算技术核心能力建设,并不断推动原有技术体系向绿色提效的方向迭代,以实现企业全局层面更高效的绿色计算实践和降本增效优化。Ø推动基础设施升级,以实现更精细颗粒度的全局资源管控和优化能力;Ø推动原有的数据库、大数据平台、中间件等朝绿色节能的方向升级;Ø升级运维、研发理念和体系,实现无人化、自动化、数字化。阶段4:引导绿色产业发展该阶段的企业联合供应链上下游合作伙伴、行业内相关方,聚焦产业生态,将自身的绿色计算实践和工具向外输出,以推动绿色计算在行业内的规模化应用,共建端到端的绿色计算生态格局。Ø推动行业制定面向算力效用的计算绿色化标准体系;Ø通过开源/商业化等形式,对外开放绿色计算核心技术能力;Ø搭建行业交流平台,为企业间交流和分享实践与应用提供桥梁;Ø推动行业绿色计算相关人才体系的建设与人才培养。面向算力应用环节的计算绿色化白皮书302.打造企业的绿色化核心能力企业的绿色化核心能力由“1个评估体系+4个关键能力”组成。“1个评估体系”指的是建立体系化的绿色度评估指标,用于评价和指导企业绿色计算整体工作;“4个关键能力”指的是从企业在供应链选择、算力平台服务提供、算力工作负载优化以及算力资源利用监测等维度建立绿色化能力。(1)绿色度评估体系对于企业而言,根据计算绿色化的整体目标,需要进行配套落地指标体系的拆解,并以绿色度指标为核心,进行可溯源、可持续化的长期运营,关键任务和行动如表4所示。表4企业建立绿色计算长期运营的关键任务和行动关键任务关键行动任务1:建立指标体系和配套机制Ø基于企业ESG和业务降本增效两方面目标,拆解具体指标体系到清晰可量化的颗粒度;Ø设置配套计算绿色化的治理策略,包括具体实施项;Ø根据协同部门和成员,确定治理虚拟项目组,并形成可常态化的评估和运行机制。任务2:定期追踪指标,了解进展和识别问题Ø建立基于指标的定期追踪和溯源机制,并通过横向对比等方式,了解进展并溯源发现推进过程中存在的问题,采取针对性的优化措施。任务3:根据常见问题,梳理并确定标准在阶段性运营后,应进行总结并沉淀出企业内部计算绿色化的建设标准与规范,包括但不限于:Ø根据业务运行与问题情况,调整指标具体项和目标,并确定重点治理项和投入资源;Ø在解决路径上,把面向关键业务时如何规避问题、解决问题的最优实践沉淀为标准规范。任务4:根据标准,投入新一轮实施落地Ø在流程机制上,基于标准规范,按优先级进行资源再分配和再投入;Ø在新一轮实施周期内观察绿色度指标进展,持续改进优化。面向算力应用环节的计算绿色化白皮书31(2)绿色观测感知端到端的观测能力和机制对企业可持续地投入和推进计算绿色化治理优化至关重要。通过绿色观测感知能力,可以提供效果层面的监控和回溯,实现对于绿色计算的全链路可追踪及优化体系,帮助企业管理层“可视化”地看到投入产出效果,并能够持续投入。一般而言,企业在进行绿色观测感知时,可分为以下三个阶段:(1)绿色感知:能够对于算力供应商的资源使用情况和碳成本进行有效的感知,为低碳算力供应商的选择提供判断依据,绿色度观测感知的层次如表5所示;(2)绿色优化:面向业务场景时的资源利用率低、能耗高的问题,能进行精准化问题的识别与针对性的优化;(3)绿色设计:能够将碳效/能耗指标融入到软件设计中,实现计算层面综合考虑能耗情况进行最优调度。表5绿色度观测感知层次观测层次观测内容面向硬件层Ø资源使用情况:常见指标包括CPU利用率、GPU利用率、I/O利用率等;Ø能耗情况:常见指标包括服务器算力碳效、云厂商碳账单等。面向软件层Ø算力使用情况:主要通过监测算力对于上层业务的使能情况,判断算力被业务应用的效率;Ø性能:对于观测和分析工作负载的资源消耗,识别性能瓶颈,优化系统的性能表现,提升工作负载的处理速度和降低处理成本;Ø能源/碳效:将软件执行所需的能源/碳效作为观测依据。(3)算力供应链绿色化企业需建立算力供应链的绿色化管理,并分规划、选型、迁移等阶段进行相关能力建设,以实现低碳算力成本的选择能力。每一个阶段的考虑点具体如下:规划:企业在规划数据中心整体方案时,应在满足业务需求前提下,建立对于不同云厂商/不同数据中心等算力供应商的算力碳强度感知能力,并形成绿色、多元化的供应链,尽量实现多技术路线/多供应商灵活选择,从而能够实施兼顾性能与能耗的综合性价比最高的方案。应用:在数据中心运行过程中,企业应对数据中心和IT设备在运行过程中的能耗情况进行持续性的监测,从单一产品的碳成本和数据中心整体碳排放等不同维度进行衡量和评估,并采取优化措施进行动态调整。面向算力应用环节的计算绿色化白皮书32迁移:在满足业务发展需求前提下,结合公司绿色度目标,在不同业务量影响范围内进行算力供应商的低成本平滑迁移。根据实现方案不同,企业可以是将全部业务工作负载、或部分业务工作负载,在部分时间、或永久地,在不同数据中心之间、或在不同云厂商之间、亦或在多样化硬件算力服务器之间进行迁移。(4)算力平台服务绿色化企业应根据自身的业务特征和算力基础设施情况,选择相应的算力平台服务绿色化实施路径,如表6所示。业内常见的演进路径为:单体服务虚拟化->微服务->云化基础设施->容器化->服务网格->无服务化。一般而言,算力平台服务绿色化的基础是算力资源池化,即能够将算力资源像水资源一样自由调配、按需供给。在此基础上,通过微服务、云化基础设施、容器化&服务网格、无服务化等技术路径,实现不同程度的绿色效益。表6企业算力平台服务绿色化实施路径基础设施升级路径绿色效益实施方案关键点微服务(1)微服务系统通过远程调用降低了系统耦合,提升了研发效率和运维效率;(2)微服务具备了服务实例弹性部署扩展的架构能力,并在宕机等故障场景下具备很好的稳定性保障。Ø系统能力解耦,通过中间件实现分布式系统架构,拆分成微服务;Ø建设适应微服务体系的研发和运维平台,具备规模化、快速的运维能力;Ø资源服务依赖的基础设施标准化,提升组件化交付能力。云化基础设施(1)实现资源池化,使得资源可以按需分配和释放,业务间相互独立,互不影响,实现了资源整合提高利用率;快速部署弹性扩容、高效维护降低成本的业务价值,并且具备良好的兼容性;(2)通过大规模资源混部技术,构建统一的资源视图,将在线业务、实时业务、离线业务以及独立集群的部署架构,演进到统一集群,提高单位算力利用效率。Ø通过云化基础设施,提供算力服务单元的标准服务;Ø逐步从非云迁移到云环境,在此期间两者共存,形成混合云模式。面向算力应用环节的计算绿色化白皮书33容器化&服务网格(1)容器启动速度快,适应分布式微服务场景的技术要求;(2)对全站资源统一调度,支撑不同业务场景的资源运行时的全局资源预算和节点运维管控,提升全局资源利用效率;(3)将业务服务容器化,建立标准化和自动化的部署能力、一致的运行界面、不可变基础设施、资源的统一调度和管控;(4)通过服务网格提升基础设施运维效率,打通异构系统通讯,提升了服务和资源的弹性能力,重塑软件生命周期。Ø通过容器化实现系统的可移植性,并完成云基础设施的适配,实现配置和调度对象的标准化;Ø服务网格化,实现基础设施和业务逻辑的解耦;Ø根据系统特点采用安全性更好的容器,并进行混部、分时、超卖等技术,提升算力的效能。无服务化(1)Serverless架构具备全托管、免运维、高弹性的平台能力,极大提升了服务效率,降低了系统架构和运维复杂性,Serverless架构将成为云的默认编程范式。Ø从简单场景入手,逐步进行平台建设,包括容器、调度、存储、服务框架、运维研发平台等。(4)工作负载绿色化结合业务情况,有针对性地对主要工作负载进行算力效用提升,使得资源占用更少。在具体实施过程中,首先需站在全局视角,实现资源利用效率和服务质量、性能可靠性的平衡;其次,让工作负载与业务挂钩,实现资源的“开源”、“节流”,从而减少浪费,实现更加精细化的资源治理。其中,开源指通过架构、技术创新等形式,更高效地提升资源利用率;节流指降低不必要工作负载的算力开销。针对不同典型工作负载类型的优化策略如表7所示。表7针对不同典型工作负载类型的优化策略典型工作负载类型优化策略绿色效益存储存储资源治理的核心策略:让表更少、存储周期更短、数据压缩比更高。Ø存储服务机型往往是最贵的,并且是有状态的,在绿色化过程中有天然的难度,通过存储Serverless化可以降低存储的运维成本,实现存储的合理化度量和使用。在线业务在线业务治理的核心策略:在保证业务高可持续性前提下,解决内部流量和外部用Ø在线往往是一个企业规模最大的集群规模。通过建设基于智能画像的Serverless弹性伸缩工程,提升在面向算力应用环节的计算绿色化白皮书34户行为突变的不确定问题。应对不确定流量的情况,实现无风险的精准资源调度和稳定性防控,可以有效的提升企业应对活动突发,流量突增的风险场景,同时实现规模化降本。智能计算智能计算一般分为AI在线推理和离线训练任务。可通过分布式训练框架和弹性调度实现对于智能计算工作负载的实时感知和智能调度,让AI任务实现资源的最优化,同时能够最快让任务跑完。Ø建立智能计算的算法量化效果评估和优化体系,提升同等算力下的算法效果。3.落实企业的绿色化保障机制企业可从组织、人才、文化、生态等多个方面落实企业的绿色化保障机制。组织协同方面,企业的绿色化治理不仅涉及到战略方向的目标规划、落地指标的拆解与执行,更涉及到面向业务资源利用率为核心的IT核心能力的优化,整体过程涉及部门众多,设计与落地理念复杂,因此需要从上而下的组织机制作为保障,将绿色计算治理作为一号位工程,融入到IT管理和工作方式中,推动企业IT的整体变革。人才匹配方面,一是站在行业视角,由于ESG战略推行,全球范围内企业对于绿色人才的需求都在显著增加,对于绿色人才的招募和培养将成为企业绿色化建设、提升自身科技可持续能力和综合竞争力的重要一环。二是站在企业视角,绿色计算治理需要具备绿色+IT+业务技能的复合型人才,企业可考虑成立专项工作组,进行定期、定向培训的形式提升企业内部绿色人才综合素质,加强企业内部绿色人才队伍建设。文化建设方面,绿色计算与企业的ESG理念、降本增效方向相辅相成,背后包含的是计算可持续发展以长远赋能业务的理念。对于企业而言,绿色计算绝不是孤立化存在的,需要设计整体的绿色企业经营理念和文化体系,并将绿色计算作为科技可持续化的核心文化理念而推行。需要将科技绿色化的理念作为企业价值观,根植在日常办公、运营、管理的过程中,从而真正践行绿色计算。生态合作方面,绿色计算不仅是企业内部治理,更是行业共建以推动该环节整体发展的过程,可包括:(1)技术治理,绿色计算涉及到软件与硬件协同的优化建设,因此在企业绿色计算技术治理过程中,应积极与供应链上下游企业交流共创,从软硬协同视角,携手引进行业内先进的相关解面向算力应用环节的计算绿色化白皮书35决方案或产品,推进上下游的兼容适配和优化,以实现更高效的治理;(2)生态建设:目前行业在面向算力效用的环节关注度较低,并缺失体系化的标准与生态。对于有良好践行成效的企业而言,一方面应将自身实践通过商业化/开源等形式积极输出,构建自身绿色影响力,另一方面应联合产业相关方,包括联盟、标准机构、测评认证机构和上下游绿色合作伙伴,共建绿色计算生态体系。面向算力应用环节的计算绿色化白皮书36第六章总结与展望数字经济已成为当前全球各主要国家的发展战略和产业竞争高地,而支撑数字经济发展的重要底层基座是算力基础设施,在全球“碳达峰、碳中和”大背景下,站在算力全产业链视角、实现端到端的绿色算力已是产业关注重点和未来发展趋势。当前,产业对于上游的可再生能源生产和中游的绿色数据中心关注度较高,并且通过政策推动、技术创新等方式不断提升可再生能源使用比例、降低数据中心的PUE、WUE等。相比之下,行业对于下游的在应用环节的算力利用效率关注度尚显不足,而该环节恰恰还存在着巨大的提升优化空间,可以通过计算绿色化来进一步提高算力服务器的利用效率,达到节能降碳的目标。在此背景下,本白皮书初步分析当前行业中普遍面临的服务器算力利用率不高的问题所在,并提出了面向应用环节的计算绿色化的概念、内涵,以及关键技术要素,并以当前算力应用占比较高的互联网行业作为主要研究对象,进一步分析了应用环节提升算力利用率所面临的挑战,以及典型互联网公司已有的产业实践和解决方案,以期为其他算力应用企业实施计算绿色化所参考借鉴。当前,面向应用环节的计算绿色化仍有待包括政府机构、行业联盟、产业智库、技术厂商、应用企业等生态各方进一步协作,从产业政策引导、产学研用联合、产业联盟构建、行业标准制定、计算绿色度指标评价设定和评估评测体系搭建、技术开源开放等角度,共同推动计算绿色化的技术联合创新和产业规模化发展。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

碳中和
已认证
内容提供者

碳中和

确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱