西南证券研究发展中心通信研究团队2025年2月专题报告Deepseek引爆通信产业新机遇24核心要点DeepSeek通过创新算法使推理效率大幅优化,大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。DeepSeek-V3采用了多头潜在注意力(Multi-headLatentAttention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。从成本端看,更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。技术端看,Deepseek在自然语言理解、多模态交互等底层技术上的突破直接降低了垂直领域小模型的技术门槛,其开源的分布式训练框架等技术能够被小模型复用。同时,Deepseek的模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求,同时小模型下沉到中小企业,进一步带来了网络通信基础设施需求,对交换机、边缘计算设备、5G切片等带来新需求。光模块等需求来源从训练转向推理,带来多场景适配需求。虽然单次训练任务的算力需求降低,但模型轻量化可能推动分布式训练和边缘计算的普及,导致数据中心内部短距连接需求从集中式超算集群转向更分散的节点间通信。机架内光模块对于高密度计算仍需要低延迟、高带宽的互连,800G模块需求可能受分布式架构的推动;而在边缘场景,短距光模块在边缘服务器的部署比例可能上升,但单点用量低于传统超算中心。同时,技术替代效应强于需求收缩,CPO的核心价值在于解决传统可插拔光模块的功耗和密度瓶颈,即使算力需求下降,但对于能效比要求、空间压缩要求、降低成本要求仍可能驱动其渗透率提升。风险提示:AI建设不及预期;上游资本开支不及预期等。1目录1技术突破——开源大模型如何重塑AIAgent开发范式2因果闭环——AIAgent多点开花和边缘设备搭载ai如何倒逼通信升级3硬件变革——通信产业链的确定性机会2DeepSeek与开源模型的“降本增效”革命DeepSeek-R1与各类大模型性能比较DeepSeek大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。DeepSeek通过创新算法使推理效率大幅优化。DeepSeek-V3采用了多头潜在注意力(Multi-headLatentAttention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。数据来源:DeepSeek,西南证券整理DeepSeek-V3与各类大模型性能比较3DeepSeek与开源模型的“降本增效”革命MoE系数模型效率提升MLA架构能够大幅提升模型推理效率。MLA(Multi-headLatentAttention)跨层注意力特征融合架构架构是DeepSeek模型中的一种注意力机制优化技术,通过低秩联合压缩注意力键(Key)和值(Value),显著降低了推理过程中的KV缓存,同时保持了与标准多头注意力(MHA)相当的性能。MLA架构在保持模型性能的同时,通过压缩技术减少了内存占用和计算量,从而提高了模型的推理效率。MoE稀疏化能够控制激活参数数量,提升模型计算效率。MoE(MixtureofExperts)通过将模型划分为多个“专家”模块,每个专家专注于处理特定的任务或数据子集。在训练和推理过程中,只有部分专家被激活,从而减少了不必要的计算。MoE架构...