07解码DeepSeek,)构建医药⾏业新质⽣产⼒腾讯健康李慧⽬录•从DeepSeek看⼈⼯智能发展趋势•⼤模型及DeepSeek潜在应⽤场景探索从DeepSeek看⼈⼯智能发展趋势AI离我们越来越近,越来越密集的“加速”信号4“AI”概念⾯世1950s2012CNN,$⼈脸识别Alpha,⼤战李世⽯20172022Chatgpt,/C端破圈DS,$“Aha”时刻2024数据来源:1.(甲⼦光年智库梳理,2023年;DeepSeek-R1•1987-2020年之前的主导是“⼤数据、⼩算⼒、专⽤决策范式”。•2020年后,GPT-3代表技术路线“⼤数据、⼤算⼒、通⽤范式”,验证⼤语⾔模型的可⾏性。•GPT3/4在深度推理和问题解决⽅⾯有所⽋缺,OpenAI-o1通过思维链(ChainvofvThought)增强推理能⼒,将复杂问题分解成更⼩、更易处理的步骤;⽽DeepSeekR1在展现卓越推理能⼒同时,训练和推理成本极低BERTBERT在文本分类、命名实体识别等语言理解任务表现出色。也是医疗AI小模型年代主要技术路线“大数据、小算力、专用决策”GPT为内容创造和自动推理开辟可能性“大数据、大算力、通用模式”基于DS-v3构建推理模型,通过强化学习提升推理能力,且训练成本极低AI技术演变路线5理解Chatgpt,J⼀个AI领域的“⼯程奇迹”Chatbot:⽂本交互式应⽤Gpt3:预训练⼤模型Promptengineering提⽰词⼯程RLHF强化学习NvidiaA100(A800)⾼性能卡SFT监督微调RDMA解决数据处理的延迟顶尖的AI⼈才数⼗TB⾼质量数据数万对⾼质量prompt增长:破圈,两个⽉到⼀亿⽤户的速度“创新落后”的机会成本被不断放⼤体验:哎哟不错噢低成本,超出⽤户预期的“智能”产品:典型的2B能⼒集合‰快速推出全家桶和云服务矩阵市场:典型的B端商业模式‰快速市场预热和商业化6再看DeepSeek,⼜⼀个“⼯程奇迹”7DeepSeek&是“深度求索”开发的⼀系列⼈⼯智能模型。DeepSeek&通过持续的技术创新和市场拓展,在⾃然语⾔处理和⼤型语⾔模型⽅⾯取得了显著进展,在国际市场上获得了⼴泛认可。其中:•DeepSeek-V3是在14.8万亿⾼质量token上完成预训练的⼀个强⼤的混合专家(MoE)语⾔模型,拥有6710亿参数(激活参数370亿)。作为通⽤⼤语⾔模型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊•DeepSeek-R1是基于DeepSeek-V3-Base训练⽣成的强化推理能⼒模型,在数学、代码⽣成和逻辑推断等复杂推理任务上表现优异更低的研发成本*更⾼效资源利⽤$5.5M%vs.%OpenAI’s%$100M+使⽤~2,000%GPUs,%竞品使⽤%10,000+%GPUs开源模型⽐肩头部闭源60%+%指标优于Llama3.1Claude-3.5%GPT-4o%打破⼤模型技术壁垒重挫美国科技公司股价,英伟达市值下跌5,900亿AI的斯普特尼克时刻被美国及其盟友列⼊各种限制数据来源:*仅涵盖预训练成本,不包含研发、推理、后训练、员⼯等其他成本;2.(Sputnik(时刻,指1957年10⽉4⽇苏联抢先美国成功发射斯普特尼克1号⼈造卫星,是冷战中的其中⼀个重⼤事件及转捩点DeepSeek的创新突破•每次推理仅激活相关专家,“术业有专攻”•“专事专办、要事要办⼩事不办尽量不跨组解决”•节省42.5%训练成本MoEnSparsen(稀疏专家混合模型)•注意⼒机制⽐作图书检索系统•MLA%建⽴⼀个智能分类系统,不记具体信息,⽽是⼀个“简单”标签•模型的占⽤率降低⾄传统的MHA%5-13%MLAn(多头潜在注意⼒机制)•像学霸⼀样把注意⼒消耗降到最低•“⼀⽬⼗⾏跳记重⼼记住题点”“NSAn(原⽣稀疏注意⼒)n•传统模型需要⽤32位或者16位数记录数字•“⼿机号码,记最后4位”•提升训练速度同时保持精度,降低硬件门槛FPBn混合精度训练•从海量数据中提炼⾼价值信息,提升模型学习效率•蒸馏垂类⼩模型能⼒,不输于全尺⼨模型数据蒸馏技术•⼤道⾄简,⽤强化学习跳出题海和⼩测让模型⾃⼰学会思考GRPO(群体相对策略优化)效果体验惊艳,成本极致压缩8为什么⼈⼈都爱DeepSeek?成本优势•550万美元预训练成本达到GPT-4级别性能,打破“算⼒军备竞赛”魔咒•技术成本的下降,为⾏业上下游带来更多创新的可能技术震撼•算法、训练范式、推理、算⼒利⽤全⽅⾯创新•DeepSeek&V3&通过快速迭代新技术,⼤幅降低了训练和推理的成本。⽽且它是个拥有推理能⼒的模型,全球可⽤开源引爆•开源的论⽂和库,以及提供简易的蒸...