2024数据中心能源十大趋势白皮书-华为数字能源VIP专享VIP免费

2024年数据中心能源十大趋势
白皮书
202401
免责声明
本文档可能含有预测信息包括但不限于有关未来的财务运营
产品系列、新技术等信息。由于实践中存在很多不确定因
可能导致实际结果与预测信息有很大的差别。因此,本文档信息
仅供参考,不构成任何要约或承华为可能不经通知修改上述
信息恕不另行通知
版权所有 ©华为数字能源技术有限公司 2024。保留一切权利。
非经华为数字能源技术有限公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
华为数字能源技术有限公司
深圳市福田区香蜜湖街道华为数字能源安托山基地
邮编: 518043
digitalpower.huawei.com
2024年数据中心能源十大趋势白皮2024年数据中心能源十大趋势白皮书
目 录
前 言
01
02
04
06
08
10
趋势一:产品安全
高可靠产品+专业化服务是保障数据
中心安全可靠运行的关键
趋势二:架构安全
分布式制冷架构将成为温控安全的更
优选择
趋势三:主动安全
预测性维护将成为数据中心基础设施
的标配
趋势四:网络安全
全生命周期的网络安全防护体系将成
为数据中心基础设施的保护盾
趋势五:部署极简
预制化、模块化将成为高质量快速交
付的最佳选择
12
14
16
18
20
趋势六:运维极简
专业化管理平台让数据中心运维更安
全、更高效
趋势七:未来演进
风液融合将成为业务需求不确定场景
下的优选架构
趋势八:制冷高效
间接蒸发冷依然是现在和未来最优的
制冷方案
趋势九:系统高效
能效PUE挖潜要从关注部件高效调整
为系统工程最优解
趋势十:调优高效
AI调优将成为存量DC能效智能优
的最佳选择
2024年数据中心能源十大趋势白皮2024年数据中心能源十大趋势白皮书
目 录
前 言
01
02
04
06
08
10
趋势一:产品安全
高可靠产品+专业化服务是保障数据
中心安全可靠运行的关键
趋势二:架构安全
分布式制冷架构将成为温控安全的更
优选择
趋势三:主动安全
预测性维护将成为数据中心基础设施
的标配
趋势四:网络安全
全生命周期的网络安全防护体系将成
为数据中心基础设施的保护盾
趋势五:部署极简
预制化、模块化将成为高质量快速交
付的最佳选择
12
14
16
18
20
趋势六:运维极简
专业化管理平台让数据中心运维更安
全、更高效
趋势七:未来演进
风液融合将成为业务需求不确定场景
下的优选架构
趋势八:制冷高效
间接蒸发冷依然是现在和未来最优的
制冷方案
趋势九:系统高效
能效PUE挖潜要从关注部件高效调整
为系统工程最优解
趋势十:调优高效
AI调优将成为存量DC能效智能优
的最佳选择
2024年数据中心能源十大趋势白皮书2024年01月2024年数据中心能源十大趋势白皮书目录01前言趋势一:产品安全02高可靠产品+专业化服务是保障数据中心安全可靠运行的关键趋势二:架构安全04分布式制冷架构将成为温控安全的更优选择趋势三:主动安全06预测性维护将成为数据中心基础设施的标配趋势四:网络安全08全生命周期的网络安全防护体系将成为数据中心基础设施的保护盾趋势五:部署极简10预制化、模块化将成为高质量快速交付的最佳选择2024年数据中心能源十大趋势白皮书趋势六:运维极简12专业化管理平台让数据中心运维更安全、更高效趋势七:未来演进14风液融合将成为业务需求不确定场景下的优选架构趋势八:制冷高效16间接蒸发冷依然是现在和未来最优的制冷方案趋势九:系统高效18能效PUE挖潜要从关注部件高效调整为系统工程最优解趋势十:调优高效20AI调优将成为存量DC能效智能优化的最佳选择前言前言数据中心当前处于一个快速发展和技术变革的特殊时期,全新的人工智能应用正在重塑整个世界,为社会带来便捷的同时,也为数据中心的发展带来了新的机遇和挑战。智能算力的爆发式增长,对数据中心提出了大算力、高性能的新需求,并为数据中心的发展提供了强劲的动力和更加广阔的空间。随着数字化技术的进一步发展,数据中心的规模、架构、技术、管理等方面都取得了显著的进步和突破,其重要性等级也不断提升。而近年来数据中心的安全事故时有发生,由此造成的社会影响和经济损失,呈逐年升高的趋势,安全可靠作为数据中心的最基本要素,成为行业共同关注的重要课题。除此之外,智能算力时代的到来,更为数据中心产业带来前所未有的变化,在可靠性、可用性和经济性的基础上,未来数据中心还需要支持灵活演进,以匹配不同时期的业务需求。同时,人工智能技术在数据中心基础设施领域的应用,也为数据中心的运维创新带来了更多可能。华为数字能源与产业领袖、技术专家和行业客户基于深入研讨,并结合自身的深刻洞察和长期实践,发布《数据中心能源十大趋势白皮书》,希望为促进数据中心行业健康发展提供参考,贡献智慧。01高可靠产品+专业化服务是保障数据中心安全可靠运行的关键随着数字化的深入,数字经济已经成为了社会发展的主引擎,作为数字经济的底座,数据中心的稳定运行,直接关乎着社会和经济的发展,高质量可靠运行成为数据中心的最核心要求。作为数据中心基础设施的关键组成,采用高质量的产品和专业化的服务保障体系,保障数据中心安全可靠运行的关键。02产品安全安全可靠始终是数据中心最本质需求数据中心基础设施作为数字底座,是海量数据承载的物理基础,是信息集中处理、计算、存储、传输、交换、管理的核心资源基地,也是当今社会经济正常运转的关键保障,因此安全性是数据中心的生命。而数据中心中基础设施的可靠性、安全性一直是较薄弱的环节,完善的端到端保障机制,是数据中心生命周期内安全稳定运行最牢靠的基座。高可靠产品+专业化服务是保障数据中心安全可靠运行的关键每一个数据中心的组成背后都有着数以千万计不同部件,在如此众多的零部件组成下,为了确保数据中心具备高可靠性高安全性,需要从产品本源安全可靠出发到专业化团队设计运维,构建端到端全链保障机制,才能确保数据中心安全可靠。高可靠产品包含产品设计可靠和产品生产可靠两部分:产品设计可靠:产品的设计理念关系到产品本身的安全,良好的设计可以避免事故的发生,或者减少事故造成的影响。以锂电池产品为例,在设计阶段,电芯的选型、模组的组合、pack的连接以及电池系统之间的并机,都关系到电池运行的安全性和失效率。如电芯的选型,高可靠的磷酸铁锂电芯可以大幅降低电池热失控后的起火风险,以提升数据中心备电系统的安全等级。产品生产可靠:设计阶段决定了产品的“基因”,而很多产品的部件数量多,设计精密,生产过程对产品的优劣起到关键作用。在生产中,尽可能减少不确定性影响(如人工介入),构建鉴权的质量控制体系和标准化生产流程,可以确保产品的一致性和可靠性。如在制造阶段,引入自动化标准产线,大大降低产品生产一致性差等问题,同时配合数字化AI技术与显性化技术,自动监测设备的特征参数,从而进一步识别生产过程中潜在的风险因素,如焊接不良、螺栓松动、电芯析锂、绝缘破损、漏液、虚焊漏焊等,从生产制造源头保障产品的安全可靠。专业化服务包含专业化部署和专业化运维两部分:专业化部署:数据中心建设属于专业领域,包括强电安装、弱电调试、制冷系统部署和弱电监控等界面,工作的专业性和规范性对于安装质量至关重要。如配电设备安装中的力矩、电阻测量,电池安装中的规范影响,制冷系统中管路焊接和保压、冷媒冲注等工作,需要细致的工艺和水平保障质量。同时对于规范性,需要遵从相应技术标准,避免因部署不规范导致的安全隐患。专业化运维:可靠的产品和部署是构建高质量数据中心的基础,专业化的运维将是数据中心可靠运行的护盾。良好的运维工作应具备完善的运维流程、专业的运维技能和事故应急预案,可以在设备运行时发现异常,及时处理,在紧急情况下迅速响应,降低影响。做到数据中心长治久安。只有严格遵守端到端保障机制的产品,才能使数以千万零部件产品组成的数据中心安全、稳定、可靠、持久的运行。03分布式制冷架构将成为温控安全的更优选择UptimeInstitute2023年调查数据显示,造成数据中心事故或中断的原因构成中,制冷系统占比达19%,是仅次于供配电的第二大故障来源。在数据中心可靠性的关键要素中,除了制冷设备本身的失效率,整个数据中心温控架构的设计,是决定数据中心制冷可靠性的关键。04架构安全集中式制冷存在单点故障风险当前,多数大型数据中心采用集中式冷冻站供冷系统,该系统由冷水机组、冷却塔、蓄冷罐、温控末端、冷却水泵、板式换热器和管理系统等七个子系统组成,涉及几十种设备,这些设备通过数百至数千米的水管连接,水管上的转接头和阀门众多。因此,该系统存在故障点多、故障域大的问题,一旦发生单点故障,可能导致数据中心多个机房或多栋楼出现大规模宕机,给数据中心的业务稳定性带来极大的挑战。近年来,香港、新加坡、广州等地的多家头部数据中心厂商因集中式冷冻水系统故障而引发长达10小时以上的宕机,造成一级安全事故,受到工信部的约谈,同时导致多家网站和APP无法正常运行,造成巨大的经济损失。例如,2022年12月,香港某大型数据中心的冷却管路漏水进气,导致冷水机组全面停止运行,机房温度升高引发次生消防事故,服务器停机超过15小时,多家网站和APP无法正常运行,多个知名品牌的业务受到严重影响,造成的经济损失无法估计。另一个例子是,位于中国华南地区的某数据中心,其冷却水系统因母管缺水进气而形成气阻,导致整个冷却系统失效,全楼的制冷系统中断。2023年,新加坡某大型数据中心服务商,由于冷水机组软件升级优化不当,导致制冷系统无法启动,无法为服务器提供冷却,诸多服务器因超温而宕机,服务中断,其数据中心中运行的某头部银行的在线业务长时间无法使用。分布式制冷架构各子系统相对独立,可靠性更高分布式制冷系统架构灵活,子系统相互独立互不影响,单台设备的故障不会影响到其他设备,在保障温控安全方面具备更大优势。分布式制冷架构一般针对单个Datahall配置冷源,并按业务重要程度设置架构冗余,若单台设备故障仅对单个子系统产生影响,不影响整体机房业务正常运行,对重要业务的保障能力更强,且不会对其它部分机房业务造成任何影响,从架构设计上大幅提升了数据中心的可靠性,是智算时代更优的选择。同时,分布式制冷系统更容易实现工厂预制,可减少现场工程量,减小施工质量问题带来的隐患。此外,分布式制冷系统的一大特点是运维简单,以间接蒸发冷却为例:相对于冷冻水机组,一般的间接蒸发冷却空调机组结构非常简单,仅由一台主设备和数个附属设备组成,系统连接点少,管路相比冷冻水系统也仅需1/10左右,应急处理时出错的概率低,运维难度也大大降低,可以最大程度保障数据中心的供冷有效性和供冷稳定性。随着数据中心规模越来越大,集中式制冷的弊端也越来越大,分布式制冷系统凭借架构灵活,可靠性高的优势将越来越广泛地应用到新建数据中心,逐渐取代集中式制冷方案成为主流。广泛的市场需求也推动了行业技术的不断突破和进步,多个主流厂商均开始大力推广分布式制冷架构,其中最具代表性的就是间接蒸发冷却方案,当前间接蒸发冷却方案支撑的机架规模已超过30万,并在众多气候条件迥异的地区都得到了落地验证。相信随着以间接蒸发冷却和分布式制冷架构为代表的新型节能技术的进一步普及和推广,数据中心产业将迎来一个低碳节能和安全可靠兼顾发展的新时代。05预测性维护将成为数据中心基础设施的标配随着数据中心功率密度的提升,故障应急处理的时间也大幅缩短,对于数据中心维护提出了更高的挑战。得益于人工智能技术技术的发展,使用AI技术进行风险预测和管理数据中心基础设施成为可能。AI算法可以从历史和实时数据中学习,预测和识别异常模式,从而使数据中心的安全管理从被动的救火模式转变为主动的防火模式,从运维手段上提升数据中心的可靠性。06主动安全数据中心功率密度的升高,使故障应急处理时间大幅缩短随着智能计算技术的发展,数据中心的单机柜功率将从6-8千瓦增至30-40千瓦,极大地提升了数据处理的能力。这一飞跃不仅优化了运算效率,还推动了数据中心供电/制冷技术的革新,因为高密化需要更大的供电功率,更高能量密度的备电电池,以及更高效的散热方式。但这也带来了更大故障域的风险,比如锂电池以其高能量密度和长寿命在数据中心能量存储领域占据了一席之地,但它们也存在过热风险,特别是在过充、内部缺陷、使用不当等异常场景下,公开研究资料显示,单体磷酸铁锂电池从热失控触发温度T2(150~250℃)到最高温度T3(一般不超过500℃)之间,时间仅需要30~60s。在IT设备功率密集的环境下,冷却系统的故障可能迅速放大,导致机柜过热。在故障发生时,考虑到IT设备的单位时间发热量是传统计算机的4到5倍,散热压力大幅增加。另外对于故障的应急处置,传统的数据中心可能会采用直通风、干冰风扇等临时措施。然而,在液冷高密场景,这些传统方法可能不再适用。通常情况下,对于一个30千瓦的机柜,如果采用板式液冷加直通风的散热方案,在二次管路出现故障时,可供反应的应急时间可能仅有30秒至1分钟。变配电系统中的电气连接触点随着设备运行时间增加,在施工质量、潮湿和灰尘腐蚀、震动应力共同影响下,产生接触面腐蚀或松动,最终导致触点温度异常,这类问题在低负载时不易察觉,但在负载增加时可能瞬时突然爆发,对数据中心的电力安全构成严重威胁。在以上这些情况下,完全依赖人工进行应急处理就会非常被动。因此,迫切需要开发出预测性维护技术,以便能够提前发现潜在的故障并及时介入处理。预测性维护可帮助数据中心实现故障主动预防在数据中心中,预测性维护是一种利用大数据和人工智能(AI)算法,对设备的运行状态进行实时监测和分析,从而提前预测和诊断故障的策略。例如,基于大数据和云计算等技术,积累了长期大规模锂电池数据,能够捕捉安全隐患的变化情况,实现安全特性和质量缺陷发展特征的建模和识别,通过监测锂电池的温度、电压、电流等参数,可以预测出电池的健康状态和剩余寿命,及时进行充放电管理和更换,防止电池过热或过放引发的安全事故。在高密液冷场景下,通过监测液冷管路的流量、压力等参数,通过参数异常预警提醒运维人员及时进行异常排查与整改,可防止漏液情况发生而引起的机房高温。在变配电系统中,通过温升模型结合定时采集的铜排触点电流、环境温度、相邻触点温度信息推理得到当前负载下的合理温度,当触点实测温度超过合理温度时,说明该接触点存在温度异常的问题。通过过温预警提醒运维人员及时进行整改,可防止高温起火导致的电力中断。通过这些措施,可以使数据中心的安全管理从被动的救火模式转变为主动的防火模式,大幅缩短故障的应急处理时间,提升数据中心的可靠性。技术与应用深圳某大数据中心,建成后可提供约1.56万个机柜,满足未来5-10年智慧城市和数字政府发展需求。其中供配电系统采用了华为电力模块解决方案,可实现全链路温度检测,AI低载高温预警,提前预警维护,满足了高可靠及快速部署需求。07全生命周期的网络安全防护体系将成为数据中心基础设施的保护盾随着全球数字化、网络化和智能化进程的推进,网络安全漏洞数量、严重程度以及受关注度都在急剧飙升,据CNNVD安全动态统计,2018至2022年连续五年漏洞数量呈持续增长走势,2022年新增超高危漏洞数量较2018年增长52%。数据中心关键基础设施是大量数据的载体,其安全可靠运行直接影响国计民生。08网络安全网络安全成为数据中心基础设施的薄弱环节随着数字化及人工智能的快速发展,数据中心基础设施作为数字底座,承载着海量的信息处理、计算、存储、交换和管理的重任,其建设和发展,对一个国家的经济、社会和安全等方面都具有重要的影响,是各行各业的重要组成部分。通过建设和发展数据中心关键基础设施,可以保障国家安全,促进国家的繁荣发展。但,放眼未来,相互连接的设备将成指数级增长,这些设备中来自于不同的供应链,其使用的技术由很多ICT供应商提供。这样一个复杂的、相互交织的生态系统使得那些想要把技术用于从未预料之处的人有可能去偷窃、篡改、破坏技术与基础设施。当黑客无法通过数字方式侵入服务器或应用程序时,他们可能会破坏供电系统、制冷系统和其他关键基础设施,以破坏数据中心的运行。例如,通过访问监控系统或入侵内网操控数据中心的冷却系统,导致服务器过热并遭受损坏,或者破坏备份过程或上传恶意备份文件,甚至关闭数据中心的UPS等。这将会给数据中心带来不可预见的风险。因此安全性是数据中心的根基,而数据中心基础设施的网络安全一直都是比较薄弱的环节。成熟的ICT网络安全技术可复用到数据中心基础设施构建从软件选型、设计、开发、验证、发布的端到端控制流程,做到软件信息可展示、软件开发可评估、供应商可信任、风险监控可持续的软件供应链安全,是网络安全的基石。基于内生安全设计理念,借鉴行业最佳实践,通过访问控制、完整性保护、最小系统、数据安全等打造产品解决方案纵深防御架构。在数据中心运维运营过程中,配置项的误配/漏配,是导致被攻击利用的重要因素,漏洞利用是网络攻击的主要手段,需要具备对恶意攻击流量的实时感知能力,针对网络攻击的快速识别能力及针对性的响应速度,是保障关基等重要网络资产安全的根本所在。因此,建立态势感知、安全配置、证书管理、漏洞管理能力及完善的组织和快速响应流程以确保运维安全可视可控,大大降低网络安全风险。未来,软件供应链安全、产品纵深防御解决方案、运维运营安全将共同组成数据中心全生命周期的网络安全防护体系。技术与应用武汉超算中心是湖北东湖高新区打造的科技地标项目,是我国最大的集装箱超算中心,整体规划设计算力为200P,首期算力达到50P,主要为高科技领域和尖端技术研究提供高性能算力服务。采用华为电力模块、锂电、预制模块、监控系统、AI节能等解决方案为超算中心基础设施全方位的安全可靠保驾护航。武汉超算中心09预制化、模块化将成为高质量快速交付的最佳选择数据中心基础设施系统组成复杂,工程属性强,它的建设速度和交付质量直接影响客户业务能否快速上线和安全稳定运行。特别是针对数据中心产业基础薄弱地区,借助产品模块化及预制化的成熟技术,工程预制化将成为数据中心高质量快速交付的最佳选择。10部署极简部署极简成为互联网新兴市场DC交付的迫切需求近年来,中国互联网产业已经进入了相对成熟的发展阶段,产业规模增速放缓,拓展海外市场以寻找新的增长机会已经成为了中国互联网产业的重要共识。同时,伴随国家出台了针对互联网企业的出海相关扶持政策和机制,业务出海已成为中国互联网企业发展的战略选择。对于互联网企业而言,云计算是最重要的基础设施之一,在业务出海的过程中,采用云计算能为企业提供更加灵活的业务部署能力,云计算数据中心能否快速部署影响到企业能否夺取业务发展先机。但是,在互联网产业潜力巨大、增长较快的新兴市场,诸如中东北非拉美东南亚等地区,大规模数据中心产业起步晚,数据中心基础设施欠完善。产业规模小,工程能力弱,施工水平低,传统数据中心短期无法规模增长;产业从业人员少,经验参差不齐,供不应求,已成为数据中心建设发展的瓶颈;传统建设模式多厂家分包多产品拼凑的特点,使得数据中心建设质量难以得到保障。部署极简成为互联网产业新兴市场数据中心交付的迫切需求。工程预制化,实现DC极简快速建设随着产品模块化及预制化技术的成熟,工程预制化将实现数据中心的极简快速建设。通过把DC站点建设现场大部分复杂的土建工程和机电安装工程在工厂预制的思路,将关键温控设备、供配电设备或者数据中心整体通过模块化设计,在工厂进行模块预安装集成,现场模块乐高式拼装,实现DC的快速组建。工程预制化一方面可以降低对站点所在地区工程建设能力的要求,另一方面并行的施工工序可以大大缩短DC整体交付时间。提供匹配的预制化方案将成为数据中心建设的新常态。根据Omdia最近的一项调查,99%的企业数据中心运营商表示预制模块化的数据中心产品设计将是他们未来数据中心战略的一部分。以200柜规模数据中心为例,传统建设方式需要约24个月,预制模块化建设方式需要10个月左右,TTM缩短50%。以电力模块为例,采用预制化和全模块化设计,核心部件工厂预安装、预调试,现场交付时间从2个月缩短至2周,满足业务快速上线需求。规模化预制产业,保障DC高质量交付高质量的工程预制化,需要基于强大的工程集成能力和丰富的预制化产业经验。将大量以吨为重量单位的机电设备有序集成在标准尺寸集装箱内,同时兼顾运输的可靠性以及现场拼装后的优异结构安全性能,对于任何一家工程预制化服务提供商都是一个巨大的考验。标准化的生产工艺、先进的生产辅助设备、充足的产业工人、严谨的测试质检体系、供应的连续性和多样性、丰富的预制产业经验等因素都将直接影响工程预制化的重量。因此,预制产业规模优势和预制产业的领头企业地位,可以提供以上因素的良好保障,将有助于提高工程预制化的质量,使得站点DC建设工程能力对DC交付的影响程度降至最低。11专业化管理平台让数据中心运维更安全、更高效伴随着数据中心基础设施的规模化和复杂化,其整体的管理复杂度大大增加。同时,数据中心基础设施也逐步智能化、数字化,各设备厂家也纷纷通过AI等手段通过云服务能力,大大增强了其设备管理能力。通过高效利用云端构建的专业化管理平台来降低数据中心的运维复杂度,提升运营效率,提高基础设施可靠性,将是一种新的方向。12运维极简云数据中心复杂度激增,大大增加了维护的复杂度伴随着服务器功率密度的逐步增加,数据中心基础设施设备也逐步集成化,功能特性也越来越智能化,对运维人员的技能提出了更高的要求。同时数据中心的规模也逐步从千柜规模演进到万柜规模,相对应的整体运维复杂度也随之激增。在这样的背景下,数据中心管理者和运维团队面临着前所未有的挑战,数据中心基础设施的运维架构需要在不断变化的环境中保持灵活和敏捷,以适应未来更高性能和更高功率密度的智能算力需求。专业化管理平台,能够更好地诊断和解决设备问题,让运维更安全更可靠随着云计算技术的发展,越来越多的数据中心设备厂家通过云端构建的专业化管理平台,来辅助数据中心日常的管理和运维,以增强厂家设备的服务能力和增值特性,进一步帮助客户提升运维效率及设备可靠性。相比于传统的本地管理系统,专业化管理平台可通过云服务的方式提供了运维服务,利用AI、大数据、IOT等技术,借助原厂对设备结构、工作原理、维护方法等深入的理解,帮助企业进行设备故障自动诊断,AI预测性维护,识别潜在隐患,更好地诊断和解决设备问题。能更专业、高效的指导企业进行设备的维护保养,以延长设备的使用寿命。随着AI算法迭代更新,故障预测与诊断能力持续增强通过大数据、AI、IOT等技术,可在专业化管理平台上进行故障树建模,当有故障发生时,可自动进行智能故障诊断,实时屏蔽无效的次生告警,快速定位各类设备的故障。同时,通过平台不断累积的海量故障处理经验,可让模型精度更高,诊断与预测能力更强。例如:对于一体化UPS,当主输入端断电时,可以自动进行告警关联,自动屏蔽各个输出分支的次生告警,以突出根因告警,帮助运维人员及时对故障进行修复。随着AI算法演进,可支持rPDU故障、市电掉电故障、UPS功率模块故障、柴发故障等更多设备故障场景,大幅缩短故障响应与修复时间。设备与厂商直连,能给企业提供更快速更有效的响应与指导服务在数据中心的运行过程中,可能会出现各种告警及紧急情况,目前本地管理系统中大多配置了邮件、短信等告警通知方式,通过定义的告警规则来触发告警,但存在漏报、误报隐患。而且对于故障处理,需要经历手工联系厂家建单,工程师现场故障日志采集、故障定位、软件升级及备件更换等步骤,故障处理效率低。但通过专业化的管理平台,可将设备与厂商进行直连,如当数据中心出现如烟雾告警、溢水告警、机房高温告警等紧急情况时,原厂客服能精准识别,并第一时间联系企业并协助进行故障处理,还可通过远程日志发送、OTA升级推送等手段,帮助故障快速修复,提高数据中心的可靠性和稳定性。技术与应用湖北广电传媒大厦数据中心,采用了华为移动智能管理iManager-M解决方案,不仅实现了机房远程移动运维,还能借助原厂专业的设备维保经验、告警主动通知能力、故障预测与诊断能力,让数据中心运维更安全、更高效。湖北广电传媒大厦13风液融合将成为业务需求不确定场景下的优选架构人工智能技术的不断发展,引发了对高性能和高密服务器的需求,而这往往需要采用液冷技术来确保硬件稳定运行。但由于当前正处于通用计算和人工智能计算的过渡期,每个项目的建设需求比例往往不确定,因此,未来的数据中心基础设施需要具备灵活性,可以根据未来业务的发展调整和演进,以满足不断变化的需求。14未来演进智能算力的快速爆发,将为数据中心带来极大不确定性数据中心作为信息时代的基础设施,其算力需求随着业务发展不断变化,因此基础设施也需要不断演进。尽管当前智能算力在数据中心总算力中的占比较低,然而,我们正处于通用算力向智能算力的过渡期。随着生成式人工智能技术的迅猛发展,智能算力需求将呈现出爆发式增长,年复合增长率高达80%,远远超出数据中心平均算力增长水平。这为数据中心带来了巨大的机遇,同时也大大增加了数据中心业务需求的不确定性。当前主流的数据中心中,通常采用通用服务器,其单柜的功率密度一般不超过15kW/柜,使用风冷型制冷设备即可满足稳定运行的要求。相比之下,智能算力需要庞大的推演算法,其内置的智能计算芯片导致其功率密度普遍较高(≥30kW/柜),往往需要采用液冷方式进行冷却。在数据中心建设初期,用户往往难以准确预测通用算力和智能算力的未来占比和发展趋势。因此,在建设时,需要根据现有算力需求进行设计,并考虑解决方案能够支持未来智能算力增长的需求。因此,迫切需要支持未来演进的数据中心架构。风液融合将成为业务需求不确定场景下的优选架构伴随着智能算力的需求引入,同一个数据中心会同时存在中低功率密度(≤15kW/柜)和高功率密度(≥30kW/柜)的场景,这对制冷系统的规划建设带来了极大的挑战。用户需要在能满足当期业务需求的基础上,同时满足未来业务发展趋势的演进。在这种背景下,风液融合架构将成为可以匹配未来演进的数据中心优选架构。其核心思想是,利用风冷和液冷的不同特点,实现数据中心的制冷量动态分配。在冷源侧,通过一套系统提供风冷和液冷两种方案,通过风道和管道设计,将风冷和液冷分别应用于不同的服务器,根据服务器的功率密度和业务特点,选择合适的制冷方式。风液融合的关键是,实现风冷和液冷的比例可调,即在数据中心的总冷量固定的约束下,根据实际的需求,动态调整风冷和液冷的分配,以达到最优的制冷效果。例如,当数据中心的智能计算需求增加时,可以减少风冷的比例,增加液冷的比例,反之亦然。风液融合的优势风液融合的优势在于,它可以适应数据中心需求的变化,提高数据中心的效率和灵活性。具体来说,风液融合有以下几个方面的优势:节能:风液融合可以根据数据中心的实际需求,动态调整风冷和液冷的比例,从而实现最佳的制冷效率。相比于单一的风冷或液冷,风液融合可以节省数据中心的能耗,降低数据中心的运营成本。适应性:风液融合可以适应数据中心需求的变化,无论是通用计算还是智能计算,都可以找到合适的制冷方式。相比于单一的风冷或液冷,风液融合可以提高数据中心的适应性,避免数据中心的过度设计或不足设计。未来演进:风液融合可以根据数据中心的发展,灵活分配风冷和液冷的规模。相比于单一的风冷或液冷,风液融合可以提高数据中心的可演进性,满足数据中心的未来演进。15间接蒸发冷依然是现在和未来最优的制冷方案随着AI智算成为行业热点,对数据中心基础设施也提出了各种新的挑战和诉求,比如对应的液冷也成为了当前的主流热点。那是否意味着未来几年数据中心制冷系统会大部分甚至全部切换成液冷,未来又会以何种节奏演进,与之对应的间接蒸发冷却等制冷方案又会发生什么新的变化?0176制冷高效智算高密场景存在,主流的依然是通用计算中低密场景:AI技术的快速发展推动了智能数据中心的迅猛增长,而数据中心的功率密度需求也随之逐渐提升。尽管高密度数据中心的场景正在逐步增多,但从建设总量和增长趋势来看,短期内云数据中心仍将保持主导地位。预计未来三年内,新建数据中心中超过90%仍将是传统的中低密度云数据中心,单柜功率密度不超过15千瓦,整体制冷方案仍以风冷方案为主。这一发展趋势表明,虽然高密度数据中心正在崛起,但传统云数据中心仍然占据着主导地位,且在短期内不会发生根本性的改变。AHU一次换热,最大化利用自然冷源,实现低PUE且经济性最优针对非智算数据中心,间接蒸发冷却方案在当前的数据中心行业中拥有比较明显的优势来满足需求。从架构层面来说,间接蒸发冷却方案采用分布式制冷架构,相比集中式架构的冷冻水系统,能够有效降低单点故障引发系统故障的风险,有效提升机房的运行可靠性。从换热效率来说,间接蒸发冷却方案通过一次换热的换热芯体设计,能够最大程度地利用自然冷源,相比传统冷冻水系统的四次换热,具有明显的节电和节水优势。特别是在低温情况下,绝大部分时间可以依靠自然冷源,无需机械辅助制冷,这在PUE和WUE指标上都有显著的优势。从交付和维护来说,间接蒸发冷却方案属于工程产品化方案,能够最大程度地采用工厂预制,不仅减少了现场施工工程量,缩短工程交付时间,也能更好的进行质量保障。而且由于其结构的简化,维护的复杂度也大大降低,为后续的日常维护降低成本。经过5年以上的市场验证,间接蒸发冷却方案在设计、施工和运维方面已经非常成熟。整体综合成本约为传统冷冻水系统的0.8倍,商业逻辑更为优越。基于整体数据中心行业的发展趋势,预计未来3年内,间接蒸发冷却仍然是经济性最优的低PUE制冷方案。技术与应用乌兰察布某数据中心1000余个机柜。由5层共368个预制模块箱体堆叠,其中2~5层应用间接蒸发冷却解决方案制冷,年均PUE低至1.15,数据中心年省电费12.2%。17能效PUE挖潜要从关注部件高效调整为系统工程最优解AI大模型技术爆发,推动数据中心进入智算时代。一方面,算力激增,数据中心能耗持续上升。另一方面,面对双碳目标,对数据中心能耗提出更高要求。单纯依靠产品和部件的高效选型,已经不足以缓解高额能耗的增加。数据中心节能效PUE挖潜,需要转变思路,从关注部件高效到系统工程最优。18系统高效部件高效接近瓶颈,微小改进的时间和成本远赶不上算力时代需求随着以ChatGDP为代表的大模型开发和应用取得巨大进展,算力需求尤其是智能算力需求出现大幅提升。根据信通院发布的《2023智能算力发展白皮书》显示,2022年全球智能算力增速为25.7%,中国增速高达41.4%。预计未来五年全球算力规模将以超过50%的速度增长。数据中心的本质是把电力转换为算力。一方面,算力的激增带来能耗的激增,另一方面,面临双碳目标,数据中心绿色低碳发展的要求不断加码,PUE监管越发严苛。温控和供电系统占据数据中心能耗的40%以上。传统方式,数据中心主要通过高效设备选型,提升部件的效率来降低PUE,如高效冷机、高效空调、高效UPS等。经过多年发展,UPS双变换效率高达97%,冷机COP超过8。冷冻水空调COP接近4,单部件的效率已经接近极限,行业厂家普遍进入微创新阶段,部件效率的微小提升,往往需要大量的研发投入和时间积累才能实现,要付出的商务和时间成本远超过算力中心的投资收益。因此。数据中心节能效提升,需要转变思路,用新的方式挖潜PUE。PUE挖潜,需要系统审视现实条件和各部件技术水平数据中心涉及IT、温控、供电、网络等多个子系统,本身就是一个系统工程。影响数据中心能效水平的因素众多,如技术架构、设备选型、运行策略、运行环境、IT工作环境、自然条件,且各因素间相互影响,PUE挖潜,需要用系统工程思维来综合审视,实现系统现实条件和部件技术水平的最优权衡。从部件效率转为关注链路效率,改变运行方式,提升系统效率。比如2N供电系统,采用一路市电+一路智能在线(S-ECO)模式,保障可靠性的同时,提升供电系统效率。从关注部件效率到关注运行环境,在服务器允许的范围内,提升送风温度,加大送回风温差,既可以减少机械制冷的使用量,提升自然冷源比例,降低温控系统能耗。同时,更宽的温度运行范围,有助于提升IT服务器部署密度和运行负载率,在同等能耗情况下实现算力最优,同时,可以采用人工智能调优技术,各系统间的最优运行配置,实现算力和能耗的综合权衡,从能效(PUE)最优到算效(PFPUE)最优。技术与应用广州联通IDC,总建设规模约为19.91万平方米,采用系统工程思路,提升全域能效。温控系统采用高温冷冻水系统,进水温度从12度提升到了18度,大幅提升制冷效率。同时,送风设置为24-25度,回风36度,提升温控和IT系统效率。供电系统采用智能在线运行模式,电能转化效率达到99.1%,相比传统方式,供电效率提升3%以上。数据中心30%满设计负荷假负载下的测试结果为1.298,整体能耗降低了20%以上。19AI调优将成为存量DC能效智能优化的最佳选择国家双碳目标对数据中心能耗提出了更为严格的要求,这促使存量数据中心的节能改造成为当务之急。然而,传统的单纯硬件改造面临着诸多困难和挑战。值得关注的是,随着人工智能(AI)新技术的迅速演进,简单的硬件改造+AI软件优化有望成为数据中心节能改造的大规模应用。这一趋势将为数据中心节能改造提供更为可行的途径,并有望在未来成为行业的主流选择。20调优高效数据中心是耗电大户,减排迫在眉睫数据中心在实现信息化和数字化进程中扮演着至关重要的角色,并在云计算、5G、人工智能等领域发挥着关键作用。据2022年全年数据显示,全国数据中心的耗电量已经达到了惊人的2700亿千瓦时,占全社会用电量的约3%,较2021年的2166亿千瓦时增长了25%。随着互联网数字化进程的加速推进,预计到2025年,全国数据中心用电量占全社会用电量的比重将提升至5%。而到2030年,全国数据中心的耗电量预计将接近4000亿千瓦时,因此,数据中心的减排问题显得迫在眉睫。双碳政策,PUE监管趋严,传统改造困难大截至2022年底,全国数据中心存量达到650万架,其中PUE超过1.5的占比超过50%,即有超过300万架的数据中心PUE超过1.5。自2021年以来,大型和超大型数据中心的新建项目就开始受到约束:PUE不高于1.3。2022年“东数西算”一体化大数据中心建设,也明确要求集群内的数据中心PUE在东部地区要低于1.25,在西部地区要低于1.2,先进示范工程更是将PUE要求降低到1.15。同年,国家强制标准GB40879《数据中心能效限定值及能效等级》正式发布,这标志着未来的监督管理将以强制标准为依据,PUE监管将变得更加严格。除了发布数据中心能效指导性政策外,一些能耗重点省份的发改委、工信局等部门还制定了更多惩罚性细则,例如差别电价、不达标则退、在线能耗监测等。PUE不达标的数据中心不仅面临高额电费,还可能面临关闭整顿的风险。针对传统数据中心的节能改造,主要涉及增删改现有老旧设备,例如将定频设备改为变频设备,将低效率设备替换为高效率设备,以及增加流量计和切割管道等操作。这些改造需要停止数据中心的业务运行,对实际业务产生较大影响和损失。为达成改造目标,最重要的就是在温控领域发力,业界往往会采用更换更优制冷设备,例如行级空调近端制冷、间接蒸发冷却、高温冷冻水风墙、氟泵空调等。然而,单一的硬件节能技术总会存在瓶颈,需要寻求更加创新的解决方案,AI智能调优成为数据中心节能软改造的最佳方案业界比较常见的是采用人工方式对制冷系统进行软件调优,但人工调优高度依赖专家经验,制冷系统复杂,设备、参数多,靠人工筛选出最佳组合难度大;其次人工无法基于环境参数和负载率实时调优,效果难保持;且人工调优多为部件级或局部系统级调优,未考虑IT负载变化引起的实际制冷需求变化,不能实现数据中心全局制冷系统的联动优化。所以,仅靠单一的人工调优,节能效果有限,且高度依赖人工经验,不可复制。伴随着人工智能AI技术的高速发展,AI节能也在数据中心行业得到越来越广泛的应用。从第一代的机理白盒算法,第二代的数据驱动AI黑盒算法,到第三代知识+AI成长型算法,利用协同学习架构,AI模型支持迁移学习,可在目标局点预置模型,如暖通架构、暖通设备参数等实现共享,从而弥补数据上的不足,降低对传感器的数量要求。同时支持AutoML(自动机器学习)能力,实现模型保鲜,保障模型训练的参数最优。这些新的AI节能技术的应用,可帮助存量改造快速交付,免改造不断线,持续智能调优,提高现场整体运维调优水平。技术与应用上交所金桥数据中心,涉及大小冷机、定变频等多类设备、多工况模式,系统复杂,建模难度大,创新性的将华为iCooling能效优化引入到数据中心,是全国金融行业第一家双冷源系统实践AI调优的大型数据中心,有效降低PUE10%+,实现从制冷到“智冷”的转变。21版权所有©华为数字能源技术有限公司2024。保留一切权利。非经华为数字能源技术有限公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。免责声明华为数字能源技术有限公司深圳市福田区香蜜湖街道华为数字能源安托山基地本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,邮编:518043可能导致实际结果与预测信息有很大的差别。因此,本文档信息digitalpower.huawei.com仅供参考,不构成任何要约或承诺。华为可能不经通知修改上述信息,恕不另行通知。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

碳中和
已认证
内容提供者

碳中和

确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱