DeepSeek原理与落地应用AI肖睿团队(孙萍、吴寒、周嵘、李娜、张惠军、刘誉)2025年03月01日厦门大学大数据百家讲坛•北大青鸟人工智能研究院•北大计算机学院元宇宙技术研究所•北大教育学院学习科学实验室7人工智能概念辨析DeepSeekR1大模型原理落地应用目录CONTENTS人工智能概念辨析PART01大模型相关术语l多模态Ø文本、图片、音频、视频lAI工具(国内)ØDeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索...l通用模型Ø大语言模型(LLM,LargeLanguageModel)Ø视觉模型(图片、视频)Ø音频模型Ø多模态模型Ø……l行业模型(垂直模型、垂类模型)Ø教育、医疗、金融等大模型的前世今生•人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能)•运算推理:规则核心;自动化•知识工程:知识核心;知识库+推理机•机器学习:学习核心;数据智能(统计学习方法,数据建模)•常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,…..•人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样•传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..•深度神经网络:深度学习•传统网络架构:DBN,CNN,RNN,ResNet,Inception,……•Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention)•编码器(BERT):多数embedding模型,Ernie早期版本,…….•混合网络:T5、GLM•解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心•生成式人工智能(GenAI):AIGC•DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、……•OpenAIGPT(ChatGPT)、Claude、Llama、Grok、……•Diffusion架构:主要用于视觉模型(比如StableDiffusion、DALLE),现在也开始尝试用于语言模型•Diffusion+Transformer架构:例如Sora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构大模型的发展阶段生成模型ref:中文大模型基准测评2024年度报告(2025.01.08)推理模型生成模型与推理大模型的对比比较项OpenAIGPT-4o(生成模型)OpenAIo1(推理模型)模型定位专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来推理能力在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。多模态支持支持文本、图像、音频乃至视频输入,可处理多种模态信息。当前主要支持文本输入,不具备图像处理等多模态能力。应用场景适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理。用户交互体验提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。DeepSeekR1PART02DeepSeek公司2025年1月20日推出DeepSeek-R1推理模型作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技企业,专注于人工智能基础技术的研究与开发公司成立背景与发展历程大语言模型(LLM)的创新应用投资者背景与市场定位里程碑DeepSeek模型系列DeepSeek最新的生成模型和推理模型版本对比比较方面生成模型(V3)推理模型(R1)设计初衷想要在各种自然语言处理的任务中都能表现好,更通...