DeepSeek-R1文档-绿碳小达人-双碳资料库

DeepSeek-R1：通过以下方式激励LLMs中的推理能力强化学习（英文版）
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-AIresearch@deepseek.comAbstractWeintroduceourfirst-generationreasoningmodels,DeepSeek-R1-ZeroandDeepSeek-R1.DeepSeek-R1-Zero,amodeltrainedvialarge-scalereinforcementlearning(RL)withoutsuper-visedfine-tuning(SFT)asapreliminarystep,demonstratesremarkablereasoningcapabilities.ThroughRL,DeepSeek-R1-Zeronaturallyemerg...
2025-04-109493.05 KB0
下载文档
DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远
DeepSeek-R1\Kimi1.5及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班”主要研究方向：大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/2Outline➢DeepSeek-R1开创RL加持下强推理慢思考范式新边界➢DeepSeek-R1Zero及R1技术剖析➢Pipeline总览\DeepSeek-V3Base\DeepSeek-R1Zero及R1细节分析➢RL算法的创新：GRPO及其技术细节➢DeepSeek-R1背后的InsightsTakeaways：RL加持下的长度泛...
2025-03-0666.42 MB0
下载文档
中原证券：DeepSeek-R1带来AI技术突破，持续关注GPT-5的推出进程
第1页/共35页本报告版权属于中原证券股份有限公司www.ccnew.com请阅读最后一页各项声明计算机分析师：唐月登记编码：S0730512030001tangyue@ccnew.com021-50586737DeepSeek-R1带来AI技术突破，持续关注GPT-5的推出进程——计算机行业月报证券研究报告-行业月报同步大市(维持)计算机相对沪深300指数表现资料来源：中原证券研究所，聚源相关报告《计算机行业深度分析：美国制裁密集出台，全面围堵对我国的AI算力供应能力》2025-01...
2025-02-1771.93 MB0
下载文档

首页上页 1 下页尾页

DeepSeek-R1：通过以下方式激励LLMs中的推理能力强化学习（英文版）VIP

DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远VIP

中原证券：DeepSeek-R1带来AI技术突破，持续关注GPT-5的推出进程VIP

DeepSeek-R1：通过以下方式激励LLMs中的推理能力强化学习（英文版）

DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远

中原证券：DeepSeek-R1带来AI技术突破，持续关注GPT-5的推出进程