今年1月,来自杭州的深度求索公司携开源推理模型DeepSeek-R1火爆全网。
AI专家盛赞其“纯强化学习”的创新范式让模型自我进化、摆脱对人工标注文本的依赖,业内同行惊叹于其超高性能背后的超低投入,金融市场则以股价巨震向这位物美价廉的数学大师、编程高手、推理王者致敬。
DeepSeek-R1是开放权重模型(训练参数对公众公开),可供任何人下载使用。时至今日,它在AI开源社区Hugging Face上的下载量已超过1090万次,是目前同类模型里最受欢迎的。此外,它还刚刚成为全球第一款经过完整同行评审的大语言模型(LLM)。
9月17日,深度求索创始人梁文锋及其团队正式于《自然》杂志发表封面文章,详细阐述了他们强化标准LLM、升级推理策略的方式和过程。
DeepSeek的核心创新在于采用纯强化学习(pure reinforcement learning)这一自动化试错方法构建R1:通过奖励机制驱动模型自己得出正确答案,而非教它遵循人类选择的推理示例。因此,DeepSeek-R1能在“独立思考”中学习形成自己的推理策略,例如“怎样不受人类思维影响地验证自己的结果”。
为提升效率,模型选择估计值(而非独立算法)来给自己的工作评分——此项技术被称为“群体相对策略优化”(GRPO),属于强化学习中的一种优化方法,允许模型在训练时通过自我评估和群体比较以求增效。
有同行表示,DeepSeek-R1已对人工智能学界产生“相当显著的影响”,2025年几乎所有给大语言模型上强化学习的研究都“或多或少受到R1启发”。
另一方面,新论文在补充材料中首次披露了R1模型的训练成本——区区29.4万美元。构建基础LLM的投入则为600万美元。这是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨头的模型训练成本都是几千万起步的。
值得一提的是,R1主要采用英伟达H800芯片进行训练,而该芯片在2023年因美国出口管制禁令而被禁止对华销售。
此外,梁文锋等人根据评审意见减少了拟人化表述,并补充了技术细节说明,包括模型训练数据类型和安全性方面的内容。
Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)是这篇《自然》新作的评审者之一。在他看来,如果不树立“将模型的大部分开发过程与学界共享”的规范,同行就没法评估系统是否存在风险。
俄亥俄州立大学的人工智能研究员孙欢则指出,严格的同行评审过程确实有助于验证模型的有效性和实用性,其他公司应当效仿DeepSeek。
此前有媒体报道OpenAI方面对DeepSeek-R1的质疑:深度求索团队可能使用了OpenAI模型的输出数据来训练R1,这帮助他们以更少资源取得更高性能。
梁文锋等人未通过论文公开训练数据,但根据他们与评审人员的交流内容,R1并未复制OpenAI模型生成的推理示例以开展学习。不过他们也承认,与大多数大语言模型一样,R1的基础模型确实“上网”练过,因此必然吸收互联网上既有的AI生成内容。
坦斯托尔认为,虽无法百分百确定R1未使用OpenAI的示例进行训练,但其他实验室的复现结果已证明,DeepSeek的推理方案可能足够优秀了,优秀到不必做那种事。“仅靠纯强化学习就可实现极高性能!”
他还表示,目前很多同行正尝试运用R1的开发方法,既增强现有LLM的类推理能力,又将其应用领域拓展至数学和编程之外。“R1成功引领了一场变革。”
孙欢指出,对研究者来说,R1很强很好用。在做数据分析和可视化等科学任务时,R1的准确率并未遥遥领先,但它最好地平衡了性能与成本。
资料来源:
Secrets of DeepSeek AI model revealed in landmark paper
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
END












