—DeepSeek的突破边界与浙大先生的未来图景ChattingorActing?陈文智浙江大学信息技术中心浙江大学人工智能教育教学研究中心2025年02月17日这就是传说中的国运级产品吗?我也想来一套,在线用or本地部署?这玩意儿凭啥这么强?明天中午前,我要看到DS接入!Agent是不是也要变强了?我刚刚开发的智能体能用吗?用OpenAI训练的吧?吹!成本这么低,西湖之光不用了吧?DeepSeek关键词DeepSeekDeepDrink需求刚起,方案已至。灵感闪现,原型立现热情款待,商谈愉快深入交流,合作共赢VS02Project单击此处添加文本单击此处添加文本单击此处添加文本单击此处.DeepSeek突破边界01ChattingorActing——DeepSeek的突破边界与浙大先生的未来图景近期因开源AI大模型和相关技术火爆全球,DeepSeek一度在140多个国家的应用商店下载排行首位。DeepSeek—有史以来最快获得1亿注册用户的APP。DeepSeek席卷全球引爆全球,高性能、低成本的国产、开源大模型!•DeepSeek-R1已发布并开源,性能对比OpenAIo1正式版。•在目前大模型主流榜单中,DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。——采用MoE架构并解决路由崩溃难题MOEDeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链(HMM)RNN神经网络时代(RNN)神经网络时代(LSTM)Transfoermer时代(Attention)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新柏拉图表征假说HMM隐马尔卡夫链(HMM)RNN神经网络时代(RNN)神经网络时代(LSTM)Transfoermer时代(Attention)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM柏拉图表征假说隐马尔卡夫链(HMM)神经网络时代(LSTM)Transformer时代(Attention)神经网络时代(RNN)RNN——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链(HMM)Transfoermer时代(Attention)RNN神经网络时代(RNN)神经网络时代(LSTM)——MLA多头潜在注意力机制降低成本、提高效率DeepSeek模型架构创新HMM隐马尔卡夫链(HMM)RNN神经网络时代(RNN)Transfoermer时代(Attention)神经网络时代(LSTM)——MLA多头潜在注意力机制降低成本、提高效率相同信息多头使用信息DeepSeek模型架构创新DeepSeek工程优化⚫DualPipe流水线并行:双向流水线设计(同时从两端馈送micro-batch),显著减少流水线气泡,GPU利用率提升30%+⚫通信优化:节点限制路由(每个Token最多跨4节点)、定制化All-to-All通信内核,结合Warp专业化调度,降低跨节点通信开销⚫内存管理优化:重计算策略(反向传播时重新生成中间结果)、CPU存储EMA参数,显存占用减少20%DeepSeek预训练数据与策略14.8万亿Token多样化语料,数学与编程数据比例提升,支持多语言任务⚫数据构建:同时预测多个未来Token,训练效率提升1.8倍,推理加速显著⚫通多Token预测(MTP):两阶段扩展训练(4K→32K→128K),结合YaRN方法,支持128K上下文窗口⚫长上下文扩展:DeepSeek低精度训练与成本控制对激活值和权重细粒度量化(1×128Tile-Wise),中间累加保留FP32精度,显存占用减少40%⚫FP8混合精度训练:关键模块(如Embedding、Attention)保留BF16/FP32计算,平衡效率与精度⚫选择性高精度组件:总成本550万美元(2.788MH800GPU小时),预训练效率达每万亿Token仅180KGPU小时⚫训练成本:R1-Zero的创新——纯强化学习训练R1V3顿悟DeepSeek训练方法创新DeepSeek训练方法创新引入数干条高质量人工标注数据(含Few-shot提示、R1-Zero优质输出),通过微调建立初始推理框架,解决纯RL初期低效问题⚫冷启动数据构建:✓推理任务专项优化,新增语言一致性奖励(解决多语言混杂问题)✓阶段2:拒绝采样生成高质量SFT数据(仅保留答案正确且推理清晰的样本)✓阶段3:全场景RL,融合规则奖励(数学/编程)与模型评估奖励(开放问答⚫多阶段强化学习设计:推理能力蒸馏与开源生态DeepSeek训练方法创新跨模型知识迁移使用R1生成的80万条数据对Qwen/Llama系列蒸馏,Qwen-7B在AIME准确率提升至55.5%,超越同...