标签“DeepSeek-R1”的相关文档,共3条
  • DeepSeek-R1:通过以下方式激励LLMs中的推理能力强化学习(英文版)

    DeepSeek-R1:通过以下方式激励LLMs中的推理能力强化学习(英文版)VIP

    DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-AIresearch@deepseek.comAbstractWeintroduceourfirst-generationreasoningmodels,DeepSeek-R1-ZeroandDeepSeek-R1.DeepSeek-R1-Zero,amodeltrainedvialarge-scalereinforcementlearning(RL)withoutsuper-visedfine-tuning(SFT)asapreliminarystep,demonstratesremarkablereasoningcapabilities.ThroughRL,DeepSeek-R1-Zeronaturallyemerg...

    2025-04-109493.05 KB0
  • DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远

    DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远VIP

    DeepSeek-R1\Kimi1.5及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/2Outline➢DeepSeek-R1开创RL加持下强推理慢思考范式新边界➢DeepSeek-R1Zero及R1技术剖析➢Pipeline总览\DeepSeek-V3Base\DeepSeek-R1Zero及R1细节分析➢RL算法的创新:GRPO及其技术细节➢DeepSeek-R1背后的InsightsTakeaways:RL加持下的长度泛...

    2025-03-0666.42 MB0
  • 中原证券:DeepSeek-R1带来AI技术突破,持续关注GPT-5的推出进程

    中原证券:DeepSeek-R1带来AI技术突破,持续关注GPT-5的推出进程VIP

    第1页/共35页本报告版权属于中原证券股份有限公司www.ccnew.com请阅读最后一页各项声明计算机分析师:唐月登记编码:S0730512030001tangyue@ccnew.com021-50586737DeepSeek-R1带来AI技术突破,持续关注GPT-5的推出进程——计算机行业月报证券研究报告-行业月报同步大市(维持)计算机相对沪深300指数表现资料来源:中原证券研究所,聚源相关报告《计算机行业深度分析:美国制裁密集出台,全面围堵对我国的AI算力供应能力》2025-01...

    2025-02-1771.93 MB0
确认删除?
回到顶部
微信客服
  • 管理员微信
QQ客服
  • QQ客服点击这里给我发消息
客服邮箱