DeepSeek完全实用手册1.0版—从技术原理到使用技巧—2025年2月出品机构:至顶科技执行机构:至顶AI实验室研究支持:至顶智库团队成员:路飞邓震东刘文轩张建高书葆课题顾问:高飞孙硕媒体支持:至顶网科技行者码客人生Solidot组织机构/课题组业务联系扫描二维码说明来意目录一、DeepSeek是谁二、DeepSeek技术路线解析三、DeepSeek调用与部署四、如何使用DeepSeek结语趋势判断公司简介1.DeepSeek简介DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI),具有深厚的软硬件协同设计底蕴。模型简介DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达9.8亿。V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。来源:微信指数-DeepSeekR1推理模型简介1.DeepSeek简介推理模型是在基座模型基础上再经过推理数据训练得到的模型,回答问题时会先通过思维链(CoT)逐步思考,再输出结果。DeepSeekR1模型属于一种推理模型。来源:至顶智库结合公开资料整理绘制基座模型GPT4oClaude3.5SonnetGemini2.0flashDeepSeekV3推理模型o1、o3Claude3.7SonnetGemini2.0flashthinkingDeepSeekR1Qwen2.5GLM-4-PlusMoonshotv1…QwQ-MaxGLM-ZeroKimik1.5…性能比肩OpenAIo1模型2.DeepSeek为什么这么火OpenAI的o1模型性能曾在推理模型领域难逢敌手。来源:DeepSeekR1技术报告DeepSeek-R1模型,在AI模型基准能力的各大榜单中,得分与OpenAIo1模型不相上下。过去两年中,中国AI模型在业内曾被认为落后于美国模型半年到一年。DeepSeekR1模型的出现终结了中国AI落后的观点。作为国产模型,DeepSeek对中文支持更好。低训练成本、低推理成本2.DeepSeek为什么这么火从模型训练看,DeepSeek-V3在2048块H800GPU训练3.7天,换算成单块GPU共278.8万小时,以H800每小时2美元成本计算,最后一轮训练硬件成本仅约558万美元;Meta同规格的Llama3.1模型约花费9240万美元,相比高出16倍。从模型推理看,以官方API接入价格为例,对话模型DeepSeekV3价格约为OpenAIGPT-4o价格的十分之一;推理模型DeepSeekR1价格约为OpenAIo1价格的二十分之一。DeepSeekV3GPT-4oDeepSeekR1o1百万token输入价格(命中缓存)0.5元9.1元1元54.4元百万token输入价格(未命中缓存)2元18.1元4元108.7元输出价格8元72.5元16元434.8元来源:DeepSeek、OpenAI官网,至顶AI实验室整理开源2.DeepSeek为什么这么火开源和闭源的区别•开源模型是将模型技术细节和模型权重免费公开,供全球研究人员研究模型技术和技术人员部署使用。比如DeepSeek系列模型、Llama系列模型。•闭源模型则是部分公开或不公开技术细节,模型大小和模型权重保密。比如OpenAI和百度等。开源的优劣与闭源模型的策略相比,将模型开源的策略可以获得更多开发者关注使用和共同开发,利于构建影响力和实现普惠。但难以获得商业利润。闭源的优劣将最先进的技术保密,有利于持续保有市场竞争力,实现商业化获利。但吸引开发者较少,且不利于社会整体技术进步。大模型开源级别2.DeepSeek为什么这么火在各家AI模型厂商宣布开源时,开源的程度并不相同。开放源代码促进会(OSI)于2024年10月发布开源AI定义1.0(OSAID1.0)。OSAID1.0从模型权重、训练数据、代码、商业使用权、社区协议、符合开源定义等多维度评价开源程度。OpenAIMetaDeepSeekOSI(OSAID1.0)模型权重公开不公开公开(有限制)完全公开必须公开训练数据透明不透明部分透明部分透明尽可能透明代码开源闭源开源(有限制)完全开源必须开源商业使用仅通过API收费禁止允许允许社区协议不支持有限支持完全支持完全支持符合开源定义不符合部分符合完全符合完全符合来源...