分布式存储发展白皮书(2023年)--分布式存储产业方阵VIP专享VIP免费

版权声明
本白皮书版权属于分布式存储产业方阵,并受法律保
转载、摘编或利用其它方式使用本白皮书文字或者观
点的,应注明来源:分布式存储产业方阵”。违反上述
声明者,本方阵将追究其相关法律责任。
编制说明
牵头编制单位:
分布式存储产业方阵
主要参与编制单位:
中国信息通信研究院、华为技术有限公司、新华三技术有限公司、曙光信息产
业(北京)有限公司、戴尔(中国)有限公司、联想凌拓科技有限公司、国际
商业机器(中国)有限公司、中移(苏州)软件技术有限公司、中电信数智科
技有限公司、北京星辰天合科技股份有限公司、浪潮电子信息产业股份有限公
司、联通数字科技有限公司、安超云软件有限公司、深圳市杉岩数据技术有限
公司、深信服科技股份有限公司、中电云数智科技有限公司、华瑞指数云科技
(深圳)有限公司、北京焱融科技有限公司、天翼数字生活科技有限公司、深圳
市泛联信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技术有
限公司、京东科技信息技术有限公司、极道科技(北京)有限公司、上海霄云
信息科技有限公司
主要编制组成员:
蔚、陈屹力、马 飞、闫 丹、焦 辉、毛馨纬、王旭东、丁江波、张 震、刘
德华、孙建国、沈玉良、张天洁、张玉君、张委、杨利锋、吕磊、何营、刘飞
龙、过晓春、陈学伟、孙翠锋、刘翰超、陈侃、舒坦、隋成龙、张文涛、汤杰
皓、朱敏健、程少锋、许 刚、王丽华、成思敏、殷康龙、胡晓宇
版权声明本白皮书版权属于分布式存储产业方阵,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:分布式存储产业方阵”。违反上述声明者,本方阵将追究其相关法律责任。编制说明牵头编制单位:分布式存储产业方阵主要参与编制单位:中国信息通信研究院、华为技术有限公司、新华三技术有限公司、曙光信息产业(北京)有限公司、戴尔(中国)有限公司、联想凌拓科技有限公司、国际商业机器(中国)有限公司、中移(苏州)软件技术有限公司、中电信数智科技有限公司、北京星辰天合科技股份有限公司、浪潮电子信息产业股份有限公司、联通数字科技有限公司、安超云软件有限公司、深圳市杉岩数据技术有限公司、深信服科技股份有限公司、中电云数智科技有限公司、华瑞指数云科技(深圳)有限公司、北京焱融科技有限公司、天翼数字生活科技有限公司、深圳市泛联信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技术有限公司、京东科技信息技术有限公司、极道科技(北京)有限公司、上海霄云信息科技有限公司主要编制组成员:栗蔚、陈屹力、马飞、闫丹、焦辉、毛馨纬、王旭东、丁江波、张震、刘德华、孙建国、沈玉良、张天洁、张玉君、张委、杨利锋、吕磊、何营、刘飞龙、过晓春、陈学伟、孙翠锋、刘翰超、陈侃、舒坦、隋成龙、张文涛、汤杰皓、朱敏健、程少锋、许刚、王丽华、成思敏、殷康龙、胡晓宇前言在数字化时代的浪潮中,数据已经变成了推动社会进步的核心驱动力。每一次网络互动、每一笔交易、每一帧画面,背后都隐藏着海量的数据。对这些数据的存储、管理和分析在现代社会中已变得不可或缺。存储是数据的载体,分布式存储作为其中的一种重要形态,已经成为大数据、AI等数据智能技术深化发展的重要基石,正持续地为各行各业提供着稳固、高效、可靠的数据支撑。中国分布式存储市场保持着稳健的增长态势,尤其在中东部区域和关键行业中,数字化转型正在推动存储市场的蓬勃发展。与此同时,AI大模型、大数据湖仓一体、数字化病理、量化交易、数据网络等新兴应用场景也在不断地扩展,为分布式存储带来更多的机遇和挑战。分布式存储产业方阵积极响应产业需求,联合产学研用多方力量,共同推动分布式存储的技术标准研制、生态体系建设、应用推广等工作,在2022年白皮书基础上,围绕新的应用场景、发展趋势,为读者提供一个清晰、系统的分布式存储产业全景,支撑政府、金融、教育、制造等各行业数字化转型,推动我国分布式存储产业健康发展。希望通过这本白皮书,读者可以更好地理解分布式存储的价值和未来,同时也为相关行业和研究者提供有价值的参考和启示。目录版权声明........................................................................................................................1一、数据智能,引领分布式存储创新发展..............................................................1(一)大模型快速崛起,开启海量数据应用新时代................................1(二)算力发展需要互联互通,加速数据流动需求................................2二、产业解析,纵观分布式存储产业进展..............................................................4(一)步入稳定增长阶段,筑稳非结构化数据底座................................4(二)供需应用更加多元,上下游生态合作更加紧密............................7(三)介质协议加速升级,全闪与融合形态快速发展..........................10三、场景解读,指引分布式存储新兴应用............................................................12(一)AI大模型........................................................................................12(二)大数据湖仓一体..............................................................................15(三)数字化病理......................................................................................18(四)生物信息分析..................................................................................21(五)量化交易..........................................................................................23(六)边缘计算..........................................................................................25(七)数据网络..........................................................................................28四、技术透视,展望分布式存储发展趋势............................................................31(一)架构方面,向融合负载、更高密度、更快网络发展..................31(二)功能方面,向场景化无损压缩、多活容灾发展..........................34(三)硬件方面,向全闪存化、高效节能发展......................................36(四)生态方面,向云存开放对接、存储直通发展..............................38五、共建共赢,推进分布式存储生态发展............................................................42图目录图12019~2022年分布式存储市场规模..................................4图22022年中国各省市新增分布式存储容量.............................5图3分布式存储垂直行业增长表现.....................................6图4分布式存储典型应用场景.........................................7图5分布式存储产业生态图景.........................................9图6分布式存储在AI大模型场景应用.................................13图7大数据进入湖仓一体新阶段.......................................15图8分布式存储在数字化病理场景应用................................19图9分布式存储在生信分析场景应用..................................22图10分布式存储在量化交易场景应用.................................24图11单框多节点架构示意...........................................32图12传统TCP/IP数据传输过程.....................................33图13RDMA数据传输过程............................................34图14分布式液冷存储示意图.........................................38图15GPU直通存储示意..............................................40分布式存储发展白皮书(2023年)一、数据智能,引领分布式存储创新发展(一)大模型快速崛起,开启海量数据应用新时代大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OpenAI公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示AI的iPhone时刻已经到来,标志着大模型快速崛起,进入应用阶段。大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。大模型的另一个显著特点是对非结构化数据的高度依赖。目前会广泛提到AI大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于AI最终效果非常重要,但也1分布式存储发展白皮书(2023年)带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OpenAI宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了AI相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。大模型对存储的性能和安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,ChatGPT的数据访问使用量达到单月17.6亿次,平均响应速度在10秒以内,并且AI模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们AI大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。(二)算力发展需要互联互通,加速数据流动需求2023年10月,工信部等六部门联合印发《算力基础设施高质量2分布式存储发展白皮书(2023年)发展行动计划》,行动计划提出到2025年,我国存储总量将超过1800EB,为我国数据存储产业提供了巨大的增长空间。行动计划重点任务部署强调探索构建我国算力互联网,促进海量数据要素高效流动。在此背景下,实现算力统一调度和高速互联已经成为刚需,算力发展进入互联互通时代,数据流动作为算力互联互通的关键组成部分,是释放算力资源价值的基础,也是解决数算协同问题的关键环节。面对数据搬运成本高、数据安全合规、跨云跨域数据流动难等挑战,信通院联合用户和产业单位共同启动数据流动标准研究工作,期望通过标准建设助力构建开放、互联互通的算力生态系统,推动算力的协同和整合,为我国数字经济发展和创新提供更大的助力。算力互联网快速发展,数据流动是支撑算力互联互通的关键能力。云和存储对接、多云数据流动需求迸发,促进分布式存储向支撑上层多云数据管理方向演进。3分布式存储发展白皮书(2023年)二、产业解析,纵观分布式存储产业进展(一)步入稳定增长阶段,筑稳非结构化数据底座分布式存储市场呈现稳健增长,软硬一体比重持续上升。2022年,经过中国信息通信研究院与分布式存储产业方阵的深入分析,中国的分布式存储市场规模预计为205亿元,年复合增长率达到15%,随着经济回暖,市场增速未来将持续保持增长。其中,软硬一体的存储解决方案占据了市场的91.3%,厂商如华为、新华三及曙光等纷纷推出相应的新产品,旨在满足AI大型模型和大数据湖等场景下的非结构化数据需求。来源:IDC、中国信息通信研究院图12019~2022年分布式存储市场规模中东部数字经济发达,分布式存储发展强劲。从2022年各省新增分布式存储容量规模可以看出,我国分布式存储的发展与各区域数字经济发展呈正相关。区域集中度较高,北京、广东、上海、山东、江苏、浙江六省市作为数据生产大省,容量规模新增5.6EB,占4分布式存储发展白皮书(2023年)全国新增一半以上。其中,北上广新增达3.9EB,约占全国新增容量规模的38%。东部、中部地区城市分布式存储发展势头强劲。来源:IDC、中国信息通信研究院图22022年中国各省市新增分布式存储容量随着各行业数字化转型的持续推进,应用规模持续增长。根据2021年和2022年的数据对分布式存储在各行业的市场空间进行的观察,中国分布式存储市场的前五大应用行业为政府、电信、金融、教育和制造。2022年,这五大行业在市场中的份额已占据了69%,特别是在电信、金融、教育、传媒和交通等数字化进展较快的行业,其增长态势尤为显著。5分布式存储发展白皮书(2023年)来源:IDC、中国信息通信研究院图3分布式存储垂直行业增长表现新兴场景应用已渐成规模,分布式存储典型应用场景规模逐步均衡。根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储应用场景发展迅速,已经由过去典型的五个传统场景向更多的新兴应用场景发展。虚拟化/云计算、电子票据影像、医疗影像、非线性编辑、视频监控五个传统应用场景正随着分布式存储技术创新应用稳步增长。同时随着非结构化高价值数据快速增长,非结构化数据分析、数据挖掘成为生产决策流程,AI大模型、高性能计算、大数据分析、海量数据备份归档、工业互联网等新兴场景应用已经逐渐成规模,并快速扩大应用。6分布式存储发展白皮书(2023年)来源:IDC、中国信息通信研究院图4分布式存储典型应用场景(二)供需应用更加多元,上下游生态合作更加紧密2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业生态图景(V1.0)完成编制工作。2023年10月产业生态图景(V2.0)刷新,生态图景共有五个维度,自下而上分别是:关键部件、产品形态、服务类型、应用场景、应用行业,旨在为分布式存储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格局。7分布式存储发展白皮书(2023年)从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场和用户的产品形态及服务类型呈现多元化态势。此外,分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。8分布式存储发展白皮书(2023年)图5分布式存储产业生态图景9分布式存储发展白皮书(2023年)(三)介质协议加速升级,全闪与融合形态快速发展1、分布式全闪存储分布式全闪存储,作为分布式存储的一种新形态,完全采用闪存技术,固态硬盘(SSD)作为主要存储介质。得益于闪存性能、高速无损RDMA网络、压缩软件栈等全闪存化设计,能够提供稳定的亚毫秒级访问性能。在过去一年间,业界多个厂商发布了自己的分布式全闪存储新产品,并且已经在不同行业用户中落地应用。可以看到,随着闪存价格的下降,分布式存储正在向匹配的应用场景快速发展,作为一种新形态,分布式全闪存储已经开始进入加速发展的快车道。2、分布式融合存储分布式存储具备块、文件、对象、大数据多种服务能力。为满足海量数据数据共享、存算分离的需求,面向海量的非结构化数据,分布式存储已经发展出分布式融合存储新形态,通过一套分布式存储系统支持多种协议同时提供服务,并实现协议互通。新时代的业务场景是复杂的、多流程的、多种类型的存储操作,一种业务不再是简单的文件操作,变成了文件、大数据、对象存储的多个程序混合操作。而这些业务要求的数据往往会依赖于上个业务程序的处理结果,数据生产阶段使用文件协议把数据放入存储,数据生产业务把数据放入大带宽、高性能的文件存储后,需要10分布式存储发展白皮书(2023年)进行大数据分析工作,大数据分析工作需要使用到Hadoop集群,数据需要从文件存储拷贝到Hadoop集群后使用,这需要耗费大量时间。拷贝数据时间和数据量强相关,数据量越大对于用户业务影响越大。数据处理完后需要通过对象存储进行发布,需要从Hadoop集群把结果数据拷贝到对象存储,对于结果的实时发布造成影响。这个过程需要经历多个集群,多次拷贝,每一次拷贝都意味着业务速度的变慢,用户很难实时得到最终结果。特别是在能源勘探领域、地震资料处理领域、AIGC领域、自动驾驶领域,都需要多协议、批处理的执行业务。一套分布式系统同时提供文件、对象、大数据访问能力,系统规模可以从PB级走向EB级,允许多云多业务共享存储系统的硬件资源,提升资源利用率。通过多协议融合互通能力,一份数据无须协议转换就能够被多种协议同时访问,解决业务流程中多环节多应用访问相同数据的需求,减少数据搬迁和重复存储,提升35%的数据处理效率,降低约20%能耗。11分布式存储发展白皮书(2023年)三、场景解读,指引分布式存储新兴应用分布式存储的应用场景日益丰富,本白皮书将重点探讨其中的新兴应用场景及典型应用场景的发展趋势。涵盖的场景包括AI大模型、大数据湖仓一体、数字病理化、生物信息分析、量化交易、边缘计算以及数据网络。(一)AI大模型分布式存储在AI大模型训练和推理中均发挥了重要的作用,在国内外AI大模型企业已获得了应用验证。随着AI大模型应用的快速发展,其将成为分布式存储下一个规模应用场景。在AI大模型场景中,庞大的神经网络及其他AI框架需要处理海量数据,从中挖掘有价值的模式与知识。为应对这一挑战,存储系统需突破传统界限,确保更高的带宽、更低的延迟、更强的并发能力及卓越的可扩展性。12分布式存储发展白皮书(2023年)图6分布式存储在AI大模型场景应用应用场景特征:•大数据量:为了更好的泛化能力,大模型的发展向着大网络、多模态数据的方向快速发展。参数量从开始的百亿已增长至千亿、万亿规模。数据集由开始的文本语料,加入了图片、视频数据作为训练样本,容量规模从TB级增长到PB级。•数据处理并行:为了加速训练,在计算层通常采用分布式架构,数据在多个GPU或其他计算设备上并行处理。底层存储能够要求既满足高带宽又满足高IO,才能充分发挥计算资源的算力,保障计算资源不浪费。•数据格式多样:AI大模型全流程应用需要处理各种类型的数据,包括结构化、半结构化和非结构化数据。按照用途,AI大模型场景涉及的典型类型有源数据、数据集、模型文件、镜像数据。•海量小文件:AI数据预处理流程中针对大的数据文件(图片、视频、音频、文本)通常需要特征提取生成若干小的文件数据,文件数量可达百亿以上,针对小文件的吞吐性能会直接影响AI训练效率。所以AI训练不光要求存储解决容量和高带宽的问题,还要能解决海量文件元数据的纳管以及文件并行高性能读取的挑战。13分布式存储发展白皮书(2023年)•高可靠、高可用:模型训练通常需要数天、数周甚至数月的时间,任何存储故障都可能导致大量的计算资源浪费。为了提高可靠性和可用性,AI大模型训练采用多种机制保证数据可能会在多个位置或设备上存储多个副本。分布式存储优势及发展建议:•大型数据集,海量存储空间:随着数据和模型规模的增长,数据量会呈现指数级增长,需采用分布式存储支持海量存储空间以及横向扩展。•模型训练中的高吞吐和低时延:为了缩短模型的训练时间,提高大模型生产效率,高效的吞吐和极低的时延能为GPU计算提供足够的数据,可以减少GPU计算的等待时间。•高效的数据流动:大模型应用的源数据从各个时间维度采集,由于采集的原始数据量大、文件数据类型复杂、噪音多,所以一般在训练之前会经过有大量的工作来给数据瘦身和处理,面对处理后的有效数据快速的切入到训练环境,这对高效的数据流动提出了更高的要求,统一数据湖成为必选。•海量小文件性能支持:参考当前大模型发展特征,千亿级别的规模将成为常态,未来还会发展更大规模,所以在海量小文件下的性能持续增长是业务对存储设计的刚需。14分布式存储发展白皮书(2023年)(二)大数据湖仓一体凭借分布式存储EC的高磁盘利用率、存算分离灵活扩容的优势,大数据分析是分布式存储的典型应用场景。当前,大数据技术的发展,进入了湖仓一体的新阶段,分布式存储作为其数据底座,也在向着新的要求不断发展。湖仓一体是一种新型开放式架构,充分结合数据湖和数据仓库的优势,在数据湖低成本的存储架构之上,继承数据仓库的数据处理和管理功能。湖仓一体架构结合科学的数据分层、存算分离等理念,将多样的数据处理负载有机组合在一起,最终形成了一个完整的、高效的数据处理体系。实现数据分析民主化,满足不同角色用户的诉求,数据科学家有自己的场所来测试他们的假设,分析师能够使用他们合适工具分析数据,业务用户能够准确和及时地获得数据分析报表。图7大数据进入湖仓一体新阶段15分布式存储发展白皮书(2023年)应用场景特征:•事务支持:对事务的支持,可确保数据并发访问的一致性、正确性。湖仓一体架构在数据存储,在并发读写、作业异常失败、批流混合输入、历史数据归档等方面都需要事务支持,才能保证数据可靠性,避免数据存储变成无法有效使用的数据沼泽。•开放数据格式:应对前端不同的数据需求,支持湖仓融合开放数据格式,如Hudi、Iceberg、DeltaLake等开放格式,具备数据仓的事务一致性,同时面对各种应用场景,具备对接大数据计算引擎,如:Apache的Spark、Flink、Presto、Hive等,实现对各种数据的访问,实现开放的数据访问。•存储与计算分离:存储和计算使用单独的集群,按需分别扩展,保证湖仓一体的整体系统能够支持更多的用户并发和更大的数据量,同时最大程度地利用资源,从而实现对大规模数据进行查询和高效分析。•支持多种工作负载:面向前端丰富的数据场景,需支持包括数据科学、机器学习、流批处理以及SQL和分析的前端需求,通过同一数据存储,适配多种工具来支持这些工作负载。16分布式存储发展白皮书(2023年)•BI支持:支持直接在源数据上使用BI工具,以提高数据新鲜度,减少等待时间,减少必须同时在数据湖和数据仓库中操作多个数据副本的存储成本。分布式存储优势及发展建议:湖仓一体技术推动数据湖、数仓场景基础设施走向融合,数据基础设施架构从应用为中心走向以数据为中心。在数据湖、数仓数据共享架构下,统一数据存储层、统一元数据层、缓存加速、统一计算调度等成为湖仓一体大数据架构的趋势。•统一数据存储层:在统一存储层,利用HDFS、S3协议实现对接,既能解决海量数据存储的扩展性问题,又能更好的支撑数仓对数据访问的需求,适配已有的数据访问习惯,因此计算侧无需开发新的业务流程,减少对接适配。•统一元数据层:实现统一元数据信息管理,统一权限管控,支持计算热插拔,减少数据搬迁,保证数据时效性及一致性。对统一元数据的选择,目前国内较多的选择Hudi、Iceberg、DeltaLake技术,围绕统一元数据技术,各厂商做了适配,未来一段时期,统一元数据技术将保持各自独立的发展。•缓存加速:湖仓一体的数据缓存层,为计算提供按需的数据缓存能力,减少数据访问的IO,从而提升数据访问性能,在17分布式存储发展白皮书(2023年)实践中,需要构建更细粒度的缓存策略,通过优化数据架构提升缓存命中率,以减少缓存资源的占用。•统一计算调度:基于统一存储,构建离线数仓、融合数仓、实时查询数仓、应用分析数仓计算生态,支撑多业务场景。(三)数字化病理通俗来讲,数字化病理是指通过扫描技术对病理数据进行数字化采集(将传统病理的物理切片转换成高分辨数字图像),医生通过数字化切片生成的信息进行病理诊断以及病理数据管理。海量的数字化病理图片数据快速存储和访问为分布式存储带来了应用机会,随着国内各大医院数字化升级,这个应用场景的规模正快速增长。病理学诊断是疾病诊断的金标准。数字化技术的出现给病理科业务标准化带来了希望。一方面,将物理切片数字化,使得病理医生能够通过显示器阅片,同时也会打破会诊切片传输过程中的时空限制。另一方面,数字化将流程和记录工作无纸化,提高了病理科的运营效率。集成的数字化系统将记录和归档工作电子化,实现全流程的信息追溯并优化后续的归档管理效率。AI技术的出现为病理科的质控及诊断再添一翼。首先,AI通过自动检测数字切片图像中的异常和错误,来帮助病理医生进行智能质控,确保诊断结果的准确性和可靠性。其次,AI能够辅助医生进行诊18分布式存储发展白皮书(2023年)断,自动排阴筛查,降低医生工作量。图8分布式存储在数字化病理场景应用应用场景特征:•切片文件大:每个切片文件1-3GB,传统存储方案阅片速度慢,存在卡顿现象。•数据量大:三甲医院年病理数据增量1-2PB/年,是传统PACS影像年数据增量的10倍。•数据保存久:病理数据要求留存15年或30年以上。•数据管理难:多样化的数据来源导致数据分散,难以实现数据共享。分布式存储优势及发展建议:19分布式存储发展白皮书(2023年)•病理图片二次压缩:传统病理图片压缩后平均大小仍接近1GB,且未能充分利用病理图像的特征以及瓦片之间的相关性。目前业内最新的二次压缩算法可以在数字化病理原压缩算法基础上,做到无损的二次压缩,进一步缩减冷数据存储空间30%以上。•数据分级存储:数字化病理切片数据使用频率和存放周期存在一定的规律,按照数据访问频率和热度进行热温冷分级,可以既兼顾了阅片的性能诉求,又有效的降低科室的存储成本。•实现海量切片并发调阅:一张数字切片由几万个瓦片组成,每次调阅只会加载视野范围内的几十到几百个瓦片,加上要考虑背景压力等混合负载复杂场景,大并发在线调阅对存储的综合性能要求较高。可以采用分布式并行客户端、混合IO负载优化、多级缓存加速等技术,实现千张病理切片秒级阅片体验。•冷数据存储介质创新:病理切片数字化后,病理数据同样需要保存30年,对于使用频率变低的业务数据,其访问性能要求虽然变低,但这部分冷数据占比最高,所以需要考虑进行存储介质的创新,推荐采用高带宽、可快速读取、支持病理无损压缩算法的蓝光存储来长期保存病理冷数据。20分布式存储发展白皮书(2023年)•多协议互通:科室及医院内不同业务系统的数据类型不同,与存储系统交互使用的协议不同,不同格式数据在科室实际运行交流中存在较大难度,多协议互通技术可以对文件/对象/大数据三个非结构化进行融合互通,帮助科室快速便捷实现数据共享。(四)生物信息分析分布式存储凭借大容量、高性能、高扩展、高可靠的优势是生物信息分析(简称“生信分析”)的最佳数据底座。近几年生信分析的应用越来越多,如代表业务基因测序,这个新兴场景规模也得以快速增加。生信分析是一个典型的巨量数据驱动的行业,如何存储大规模的生信数据、妥善管理海量信息、高效进行生物数据计算、快速调用有效数据进行应用分析等是生物信息分析行业面临的难题。21分布式存储发展白皮书(2023年)图9分布式存储在生信分析场景应用应用场景特征:•大数据量:一次基因测序产生的原始数据量都是TB级别,满负荷下,一台测序仪一年产生PB级数据,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果。另外还需考虑如何低成本的实现基因数据长时间存储。•高带宽低时延:生信分析计算过程中涉及数据的高速共享与读写检索,对存储的IO带宽和实时性要求高,否则可能导致数据不完整。•高可靠:生物学分析往往会通过对比源生物信息产生大量的结果数据,长时间大并发的IO读写性能和稳定性尤为重要。•需适配GPU等高并发算力集群:生物学分析涉及大量GPU的业务,数据拆分阶段涉及大量的GPU算力,需要存储适配,并提供极高的带宽和IOPS能力。分布式存储优势及发展建议:•海量数据支持:提供标准的文件接口和访问协议。面向分析阶段百亿级别海量小文件,文件操作性能以及文件的读写性能平稳。•性能适配业务需求:兼容高性能低延时网络,提供超高的带宽能力,主流技术路线是使用RDMA;支持GPUDirect22分布式存储发展白皮书(2023年)Storage,实现以直接内存的存取方式将数据传输至GPU,降低IO延迟,提升数据带宽,充分释放GPU算力,将性能发挥到极致。•数据全生命周期管理:可以满足不同业务阶段的IO特征需求,包括大文件的下机带宽性能,数据拆分性能,分析业务阶段的小IO低时延要求,以及整个业务流程中的混合大文件小文件并存优化。(五)量化交易随着金融大数据、金融科技、智能金融的快速发展,为应对海量非结构化金融量化数据的实时应用分析,分布式存储在量化交易中得以应用。量化交易通过数量化方式及计算机程序发出交易指令,以获取稳定收益为目的的金融投资方式,在海外的发展已有几十年的历史,其投资业绩稳定,市场规模和份额不断扩大,经过多年的发展,量化交易已经成为成熟的金融工具。量化投资技术几乎覆盖了投资的全过程,包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。到2020年,量化行业已经到了大数据+AI算法的阶段,在“AI+机器学习”加持下正迅猛发展。23分布式存储发展白皮书(2023年)图10分布式存储在量化交易场景应用应用场景特征:•基础量化数据规模大:量化数据主要分为三类,一是市场的量价数据:交易所量价数据、交易量、成交量、价格、日内订单等;二是基本面数据:上市公司公告几千万条记录、公司财报数据数千万份、各大券商分析报告等;三是另类数据:个股新闻、商品数据、宏观数据、产业数据、个股指标、物流数据、供应链数据、电商数据等。这些数据都会纳入分析数据池中,成为决策依据。•量化交易依托“AI+机器学习”成为行业主流:深度学习的自动提取特征比传统机器学习的人为提取特征过程更加高效,深度学习随着数据量的增加模型效果会不断地改善。AI以其24分布式存储发展白皮书(2023年)高效的能力将量化分析向着真正的“正确等”高频操作迈进。量化投研采用神经网络和深度学习的技术,数据规模投入越大,模型精度越高。•数据类型多、信噪比低:由于交易决策需依赖各种信息源,数据来源多,导致数据类型和格式多种多样。金融市场有效信息非常少,干扰数据多。分布式存储优势及发展建议:•海量数据支持、弹性扩展:对于海量的金融数据,存储的容量和性能弹性扩展是长期刚需。•GPU存储直通:由于量化投研采用神经网络和深度学习的技术,数据规模投入越大,模型精度就越高。当前在GPU大算力的环境下,支持GPU直通存储成为关键。•统一命名空间:在量化分析领域,为便于业务快速普及,存储管理要求统一命名空间,数据规模达到百亿级别。(六)边缘计算数字经济时代,5G和人工智能技术不断迭代,物联网市场迅速发展,越来越多的设备实现互联,海量设备产生的数据呈指数级增长,能够与5G高速度、低时延特性相辅相成的边缘计算技术成为智能物联网大趋势下的重要风口,分布式存储灵活高扩展、多协议数据服务、数据共享便捷的特点成为边缘计算构建统一数25分布式存储发展白皮书(2023年)据存储资源池最佳方案。据Gartner预测,2025年将有75%的数据产生在数据中心和云之外并在边缘侧进行处理。边缘计算与云计算、人工智能、物联网、5G等技术协同,成为国家新基建的核心所在。边缘计算是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的开放平台,就近提供边缘智能服务,不仅能够实现流量的本地化处理,以降低对远端数据中心的流量冲击,而且能够提供高带宽、低时延和高稳定的应用运行环境,有利于计算框架在终端和数据中心间的延展,有助于实现场景需求、存算力分布和部署成本的最佳匹配。应用场景特征:超低时延、海量站点、海量数据、传输成本、数据安全、边缘智能等特性是MEC边缘计算场景对分布式存储提出的新挑战,比如工业互联网、智慧交通、云游戏及VR/AR等行业,对超低时延与海量数据传输均有较高要求。•超低时延:从端侧到云侧需避免远距离和多跳网络,实现实时交互、实时反馈,分布式存储需要能够快速响应终端设备的请求,必须具备超低延迟的特点,以便能够及时提供业务所需的数据。•数据安全:部分行业因政策、行业特性、数据隐私要求,敏26分布式存储发展白皮书(2023年)感数据不能离开地市甚至现场,因此分布式存储需要具备高安全性,能够提供数据的保密性、完整性和可用性,以防止数据泄露和篡改的风险。•灵活性与可扩展性:边缘计算环境常常是动态变化的,边缘节点的数量和分布可能会随着需求而变化,因此分布式存储需要具备灵活性和可扩展性,能够根据需要快速调整和扩展存储容量。•高可靠性:边缘计算环境中,边缘节点可能处于不可靠的网络环境中,易受网络故障、设备失效等因素影响。因此,分布式存储需要具备高可靠性,能够在节点及磁盘故障等情况下继续提供数据服务。•云边协同:通过跨节点调度,将边缘节点的存力、算力等资源和中心云统一管理,形成“逻辑集中,物理分散”的分布式云平台,在应用管理、数据、资源等方面实现协同。•边缘智能:在更靠近数据产生和使用侧处理业务,满足实时或近实时的数据分析、处理,缓解中心云的计算和存储负载。分布式存储优势及发展建议:•数据长期低成本存储:具备高性能EC、高效数据压缩、冷热数据分层流动等能力,降低数据整体存储成本。27分布式存储发展白皮书(2023年)•快速检索:具备自动标签、秒级查询等能力,满足多维度回调、秒级查询要求,提高数据检索效率。•多协议互通:数据零拷贝,需无缝对接AI分析平台,生产数据直接共享NFS进行AI训练;•支持大数据分析:将边缘节点所生产数据进行统一存储,整体大数据分析,优化企业流程和成本。•保障数据安全:具备快照、WORM、容灾备份等特性防止数据篡改,保障数据安全;(七)数据网络2023年3月10日,美国国家能源局推出了高性能数据基础设施(HPDF)计划,要求实现全美东西海岸40多个教育科研机构数据互联互通,以满足其大量协同计算及数据迁移共享需求。自2022年起,我国也在进行数据网络的创新研究,它将是分布式存储未来应用的一个重要场景。核心需求是在不同的算力平台之间实现高性能算力任务和数据的高效流动,构建一个便捷的算力和数据网络。这一网络以高性能算力任务和数据流动为中心,能够跨越不同的架构、地域和服务商,为AI大模型、边缘计算、科学计算等高性能任务和大数据应用提供多层次、标准化和普惠的网络、算力、数据服务。应用场景特征:28分布式存储发展白皮书(2023年)•跨地域:“东数西算”政策驱动下,东西优势互补加速跨区域算力互联。分布式存储具备跨地域、服务标准化的特点,是企业当前海量数据存储的载体。•跨架构、跨服务商:超过92%的企业已经是多云架构,分布式存储在跨服务商、跨架构层面还不够完善,需要在生态上补齐。•大数据量:数据网络面向的业务场景是高性能算力任务。像人工智能大模型、科学计算等场景都是大数据量的算力任务。面临大数据量跨域、跨服务商、跨架构流动的挑战。分布式存储优势及发展建议:•存储层构建数据跨域、跨云流动能力:数据从产生、储存、传输、处理、共享甚至销毁都离不开数据存储,相较于多云架构的其他各层,数据存储层在数据相关的操作上有着天然的优势。通过PaaS层进行的数据流动,需要将数据从本地数据存储中读取出来,再通过消耗应用和算力资源才能将数据流动到另一端,到另一端后,同样需要消耗应用和算力资源接收数据,并最终将数据储存到另一端的数据存储中,而通过构建良好的多云数据存储系统,数据只需要从本地的数据存储远程复制到另一端的数据存储中,少量甚至无需占用算力资源,且流动效率最高,通过设置针对性的流动策略,还29分布式存储发展白皮书(2023年)能够实现数据流动,应用无感。•面向多云构建统一数据底座,扩大数据共享应用:针对企业数据存储资源池,统一划分性能区间、服务类型、灾备配置、增值服务等指标,构建跨云全局一致的存储服务SLA,并基于标准化API把存储资源提供给多个云支撑各类应用和数据服务,实现数据一池共享,应用多云部署。•构建全局文件系统,形成数据互联网络:面向多云环境,向用户提供统一数据视图,用户看到单一存储空间,并通过文件、对象、HDFS等多种标准协议,文件全局可视,逻辑上多个云环境下数据底座成为一个文件系统,可进行数据全局调度。用户按照权限在同一个命名空间下访问跨云、跨数据中心的数据。企业数据管理员制定统一元数据策略、检索统一元数据,并管理各数据中心文件状态。30分布式存储发展白皮书(2023年)四、技术透视,展望分布式存储发展趋势为助力产业健康发展,产业方阵持续跟踪分析最新技术发展趋势,从架构、软件功能、硬件技术、生态发展四个维度,分析解读当前分布式存储领域最新关键发展趋势,解析各创新技术价值,洞悉分布式存储发展趋势。(一)架构方面,向融合负载、更高密度、更快网络发展1、多协议融合架构承载多业务混合负载在AI、HPC、HPDA、大数据、云原生等数据密集型应用的发展推动下,数据量呈现爆发式增长,并进一步促进了IT与各类应用的融合。另一方面各类应用的非结构化数据占比越来越大,数据类型更加复杂多样,对存储系统提出了更高的数据管理和混合负载的要求。当前分布式存储在向支持AI、HPC、HPDA、大数据、云原生、虚拟化等应用中向多协议融合的多负载混合架构上演进。不同于传统的支持单一业务的方式,数据中心要求一个分布式存储系统同时提供文件、对象和大数据的访问能力,减少协议网关带来的性能损耗,并且多种协议共享同一套硬件资源。Gartner预计到2028年将有70%的文件存储和对象存储部署在一个统一的数据存储平台。31分布式存储发展白皮书(2023年)同时HPC、HPDA及AI技术的兴起带来了混合负载的业务诉求,要求一套分布式存储系统支持不同类型、不同负载的应用系统,并能提供更高的性能来支持混合负载业务的多样化IO诉求,既能支持大文件的高带宽,也能支持海量小文件的高IOPS,以便作为稳定可靠的数据存储底座为上层业务提供高效支撑。2、单框多节点架构提高容量性能密度随着广义高性能计算(HPC)业务如人工智能、机器学习和大数据处理的迅速发展,对存储系统的需求也日益增加。这些业务需要高IO带宽、高IOPS和低延迟,这些需求对存储分布式系统的处理能力提出了更高的要求。另一方面,闪存技术和单盘容量、单盘带宽的快速增长,都推动了存储系统朝单框多节点架构发展。图11单框多节点架构示意32分布式存储发展白皮书(2023年)单框多节点架构在一个机架内配置多个独立的存储节点,每个节点都有独立的资源,并通过高速网络互联。这种架构的优势包括:提高性能和存储容量,简化管理,以及节能降耗。例如,它可以解决CPU面对高密度SSD的IO处理性能问题,简化设备部署和管理,且在典型需求下比传统方案节能20%以上。综上所述,单机架多节点架构为高性能计算业务提供了更优的存储支持。目前,多家主流存储厂商如华为、新华三等都已提供此类存储系统。3、高性能RDMA网络规模应用分布式存储采用多种网络协议和技术,如以太网(TCP/IP)、RDMA网络和FC光纤通道网络。其中,RDMA网络因其高性能而受到关注。传统的TCP/IP网络存在延迟大、多次数据拷贝和复杂的协议处理等问题。RDMA技术可以直接将数据传入服务器存储区,减少数据复制和交换操作,降低CPU负载。RDMA技术已被三种网络协议支持:Infiniband、RoCE和iWARP。其中RoCE由于生态上相对IB的开放性,其应用已经越来越多。图12传统TCP/IP数据传输过程33分布式存储发展白皮书(2023年)图13RDMA数据传输过程为了解决全闪存储性能与网络协议之间的瓶颈,2016年推出了NVMe-oF协议。它允许服务器通过Fabric连接到远程NVMe设备,实现高性能的存储设备网络共享访问。其中,基于RDMA的NVMe应用性能表现出色,受到业界的关注。NVMe-oF结合了NVMe和高速低延迟传输网络技术,释放了数据中心的端到端NVMe性能,满足了大规模和高性能数据中心的需求。由于RDMA网络的技术优势,尤其是RoCE在国内的快速发展,国内主流分布式存储厂商大部分已经支持RDMA技术实现存储前后端网络通信,具体包括NVMeoverRDMA、iSCSIoverRDMA(iSER)、NFSoverRDMA等,我们相信,随着RDMA技术的不断完善,会有越来越多的分布式存储采用基于RDMA网络技术。(二)功能方面,向场景化无损压缩、多活容灾发展1、数据缩减降低分布式存储应用成本在分布式存储向闪存介质演进的过程中,场景化数据缩减技术将为降低闪存应用成本起到至关重要的作用。随着存算分离架构在34分布式存储发展白皮书(2023年)大数据分析和高性能计算等应用场景中的广泛部署,数据缩减的能力已经下沉到存储侧。这种下沉与前后台缩减任务相结合,有效地减少了对性能的影响并显著提升了数据缩减率。不同的数据场景具有各自独特的数据特征,这为数据缩减提供了多样化的技术选择。例如,对于基因、医疗和遥感等场景,可以采用多帧图片聚合压缩和多波段聚合等方法来实现更高的缩减率。而在数据保护场景中,变长或相似性重删技术能够获得优越的缩减效果。对于视频和媒资的场景,则可以通过前景提取和码率控制等技术来进一步增强数据缩减的效率。2、分布式存储多场景双活多活容灾随着分布式存储份额在市场上的持续上升,越来越多核心业务部署在分布式存储之上,核心业务的可靠性需要全力保障,需要达到RTO=0和RPO=0的要求,在存储层需要实现双活。分布式存储可以提供多种存储服务(块、文件、对象、大数据等),需要实现全业务场景双活。存储双活可以通过存储双活特性,通过存储同步复制及锁机制能力,解决数据一致性问题:(1)同步复制确保两端存储的数据实时保持一致,一个写IO需要同时完成两端存储的写动作(存储返回IO写完成)才返回写完成;(2)双活存储需要保证任何时刻两端存储的数据读写的都保35分布式存储发展白皮书(2023年)持一致,比如:A端存储在写数据,而在相同的时刻B端存储在写同一份数据,此时存储应该保留哪份数据呢?这个IO场景就需要锁机制保障数据的一致性,通过锁机制确保所有IO的数据一致性,保障业务数据安全。分布式存储双活能力需要包含:块存储双活、文件存储双活、对象存储双活及大数据存储双活等,在存储层100%保障核心业务数据的可靠性及可用性等。(三)硬件方面,向全闪存化、高效节能发展1、分布式存储启动全闪存化作为新一代的存储介质SSD,凭借性能、能耗方面的明显优势,近几年正在对不同种类的硬盘形成围剿之势,随着SSD技术升级以及成本下降,先后淘汰了15K高性能HDD、10K高性能HDD、PCHDD,在企业核心交易系统、核心生产系统、决策支撑系统、运营支撑系统以及备份等场景已经实现对HDD的替换。目前剩下最后一个品类硬盘-容量型HDD,而容量型HDD主要应用在分布式存储系统中。新技术的替代并不完全基于成本。例如,机械硬盘替代磁带并非因为其成本更低,而是性能优越。当新技术的成本下降到旧技术的大约3倍时,被称为“甜点”,此时大规模替换往往发生。200636分布式存储发展白皮书(2023年)年,SSD性能显著优于HDD,但价格高昂。到2011年,其成本是15K企业盘的3倍,引发了大量替换。2015年,15K企业盘停产,而SSD的成本也逐渐靠近了10K企业盘和PCHDD的3倍,促使这两者相继减产或停产。2023年,得益于NANDFlash技术进步,大容量SSD的成本已低于HDD的3倍,标志着HDD的更大规模替换开始。分布式存储凭借全闪化带来的高性能、高可靠、大容量优势,一套全闪存存储性能相当于数十套传统HDD存储之和,结合大容量SSD和重删压缩技术,全闪存存储容量上可以达到5-10套传统HDD存储之和。可以进行数据中心存储整合,个设备中的数据集中到少量几台设备中存储,降低设备购置、维护、管理及能耗成本,并加速数据价值挖掘,使能业务增长。大幅降低CAPEX及OPEX。2、液冷散热提供极致能效随着数据中心规模的增长和能耗问题的突出,分布式液冷存储作为一种绿色、高效的解决方案,受到了越来越多的关注。分布式液冷存储系统内部采用无风扇设计,有效解决传统风冷方案气流强、噪音大问题。并且为硬盘提供超静音且无振动的工作环境,可以显著提高硬盘读取性能。液冷存储方案多采用冷板式液冷技术和高密模块化设计,可以显著降低关键部件工作温度,存储节点PUE值降至1.2以下。液冷存储技术能够高效制冷,提高数据中心的使用效率和稳定性。其液37分布式存储发展白皮书(2023年)体传导热能效果和大比热容的特性可以有效避免过热故障的发生。同时使用了多重节能技术,在保证容量和性能的基础上,提高存储资源利用率,降低系统功耗。图14分布式液冷存储示意图(四)生态方面,向云存开放对接、存储直通发展1、云存开放对接云化转型深入,企业使用多云成为新常态。在使用多云带来的弹性、敏捷的基础服务的同时,也要面对多云部署带来的数据孤岛和不同异构平台之间的冲突。为解决此问题,构建跨多云和企业IT的统一基础服务,将底层各种大规模云的计算、存储、网络、安全以及其他资源,抽象成统一多云的云服务底座成为产业界各方的共识。企业的多样化应用对数据存储的容量、性能、能效、安全、可靠、应用生态等有着不同的需求,多云架构需要构建足够宽的38分布式存储发展白皮书(2023年)存储服务序列,并提供统一的存储资源池和存储云服务能力,才能更好的去满足企业多样化的上云场景。如云原生的CDN应用,要求很好的可扩展性和网络访问便捷性,大量采用对象存储;金融账务,支付交易等应用要求极低的数据存取时延,全面的容灾能力,多数采用专业的全闪存块存储;半导体领域关键的EDA仿真应用对小文件存取性能、数据快速检索要求很高,普遍采用专业的高性能文件存储;科学计算,人工智能等应用,对混合负载下的带宽性能、多种数据协议互通等能力有刚需,广泛采用专业的分布式并行文件存储。基于以上的因素,云平台厂商与数据存储厂商已经开始初步构建互联互通的生态,并在政府,运营商,金融,电力等行业开始商用,如AWS可以与联想凌拓、戴尔科技、IBM、华为、杉岩数据等厂商的数据存储进行对接,阿里云可以与华为,新华三,浪潮等厂商的数据存储进行对接,华为云可以与XSKY、新华三、杉岩数据等厂商的数据存储进行对接,华三云可以与华为、曙光、惠普等厂商的数据存储进行对接,浪潮云可以与IBM、华为、XSKY等厂商的数据存储进行对接。企业可以根据业务应用的需求,综合考虑云平台能力,数据存储能力,数据安全能力,最优成本等维度灵活的选择云平台和数据存储的组合。云平台与数据存储的对接,一般优先采用通用的协议,如OpenStackCinder、Swift,VMwareVAAI,KubernetesCSI,AWS39分布式存储发展白皮书(2023年)S3等,同时在此基础上,产业界也在共同定义和扩展更多的企业级存储功能对接,例如双活、复制、快照等高阶能力。一方面满足云平台对数据存储集成性和管理性的需求,另一方面满足企业跨云一致的数据存取和数据安全体验。2、GPU直通存储GDS(GPUDirectStorage)是NVIDIA推出的一种提升GPU载入大型数据集速度的数据传输技术,是为了解决AI及HPC运算数据集规模不断增加,应用程序载入数据花费时间越来越长,导致GPU的运算速度无法充分发挥的问题。图15GPU直通存储示意NVIDIA的CUDAlib已经在客户端用NFSoverRDMA支持GDS,存储服务端支持NFSoverRDMA后,应用程序即可利用NFS客户端上的GDS功能。DellEMC、华为、NetAPP、VASTData等供应商已通过在分布式存储服务端支持NFSoverRDMA来支持40分布式存储发展白皮书(2023年)GPU直接存储。根据各厂商的测试数据,GDS能够提升数据吞吐量2~10倍。随着AI技术的发展及国家超算中心的建设,以及GPU国产化的推进,算力的需求仍然会保持高速增长,相应的对分布式存储支持GDS的需求也会越来越紧迫。41分布式存储发展白皮书(2023年)五、共建共赢,推进分布式存储生态发展随着数字化转型的深入,我国分布式存储市场呈现出蓬勃的发展态势,预计“十四五”末市场规模有望突破400亿元。在新的发展阶段中,分布式存储将继续以技术创新为核心,满足海量数据处理的需求,为各行业数字化转型提供坚实的数据基础,具体为:一是生态上,建设云存开放对接、算力互联互通生态:随着云计算和分布式存储技术的快速发展,生态合作在分布式存储厂商与云服务提供商之间已经得到广泛展开。这种生态合作旨在深度集成主流云计算平台与主要存储平台,确保在多云环境中数据的流动性和共享效率。为了进一步强化这种生态协作,需要加强对数据调度技术和数据编织技术的支持,并推动统一的生态标准的建立,这不仅将促进数据的交互性和通用性,也为各类算力资源的互联互通打下坚实的基础,从而进一步完善我国的云计算和存储生态体系。二是产业上,推动分布式存储创新,构建AI数据引擎:随着技术的发展和市场的需求,分布式存储已成为当下技术行业的核心焦点。为了满足AI大模型的数据需求,分布式存储厂商正大力投资于研发和创新,旨在解决数据归集、预处理、训练和推理中遇到的数据挑战。为了进一步加强这一趋势,需要加强推广大模型与分布式存储在各行各业的落地应用案例,促进AI大模型与分布式存储协同发展,推动分布式存储成为AI大模型数据引擎。预计在未来,分布42分布式存储发展白皮书(2023年)式存储将更好地服务于AI大模型,推动整个产业链得到更大的价值提升和发展空间。三是标准上,完善标准及评估体系,促进产业健康发展:分布式存储标准体系已进入新的发展阶段,仍需更为系统的指导和规划。强化标准体系的顶层设计是当前的首要任务,结合实际用户需求和前沿技术动向,使产、学、研、用各环节紧密协作,确立高标准的技术指导和产品标准,以丰富和完善该体系。为保障分布式存储产业健康进步,建立评估规范体系至关重要。采用符合性检验、互操作性测试以及性能评定等措施,能对核心技术和产品进行深入的评估,从而促进其持续创新与升级。43

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

碳中和
已认证
内容提供者

碳中和

确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱