2025年9月17日,DeepSeek-R1论文以封面文章形式登上Nature杂志,这是全球首个通过顶级期刊独立同行评审的主流大语言模型。
这篇论文从2月14日投稿到正式发表,足足经历了8位外部专家5个月的严格审查。
今天咱们就来好好聊聊这篇论文第二版里藏着的技术干货,看看大模型研发到底有哪些新突破。
说到大模型训练,业内一直头疼PPO算法的局限,传统PPO在处理大规模数据时,价值模型经常跑偏,就像用指南针在磁场紊乱区导航,走着走着就偏了方向。
DeepSeek团队另辟蹊径搞出的GRPO算法,直接把价值模型给"咔嚓"掉了。
GRPO最绝的是用组内排名思路做优势估计,简单说,就是把模型生成的答案分组打分,通过比较同一组内不同答案的好坏来调整参数。
打个比方,以前老师改作业是挨个给分,现在是把作业分成小组,先比出组内优劣再给分,效率和准确性都提升不少,在MATH任务测试里,GRPO直接实现"开箱即用"。
传统PPO得反复调参才能勉强出结果,GRPO第一次跑就达到了相当不错的水平,这波操作确实让不少同行眼前一亮,原来强化学习还能这么玩。
光有好算法还不够,DeepSeek-R1的训练基础设施也下了功夫,整个架构拆成四大模块:Rollout负责生成样本,Inference处理推理请求,Rule-basedReward专门打分,Training模块管参数更新,四个模块各司其职,又能协同工作。
他们搞的异步调度和显存动态卸载策略,简直是为大模型训练量身定做,就像搬家时合理规划车辆和路线,既不浪费空间又不耽误时间。
还有那个Multi-TokenPrediction组件,能一次性预测多个token,相当于原本一次搬一块砖,现在能一次搬一摞,效率自然上去了,最让人意外的是训练成本。
增量训练总花费约29.4万美元,这在大模型领域算是相当克制了,其中RL阶段占了大头,但相比其他动辄上千万美元的项目,这笔钱花得确实精明。
说到训练过程,DeepSeek-R1的四阶段流水线堪称教科书级别的操作,第一阶段纯RL训练就搞出了"AhaMoment"现象,模型突然像打通任督二脉,数学能力飙升。
但问题也来了,生成内容可读性差,还经常混杂多种语言,活像个刚学说话的孩子,无奈之下团队启动第二阶段,先搞冷启动SFT再上RL。
这步相当于给模型请了个语文老师,把表达能力提上来了,到第三阶段又玩起拒绝采样,专门过滤差答案,同时扩大SFT规模,让模型既能解题又会聊天。
最后全场景RL阶段,把各种奖励机制揉到一起,才算大功告成,中间检查点的性能变化也挺有意思。
Dev1版本指令遵循能力上去了,AIME竞赛分数却掉了,典型的顾此失彼,Dev2版本把推理性能拉了回来,甚至超过最初的R1-Zero。
到Dev3版本才算摸到天花板,各方面性能都达到最佳状态,做研究哪有一帆风顺的,DeepSeek团队也踩了不少坑。
他们对比蒸馏和强化学习发现,中小规模模型用蒸馏性价比更高,就像小店面没必要搞连锁管理系统。
关于模型规模和推理能力的关系,他们发现推理能力涌现确实有门槛,但不是规模越大就一定越好,本来想靠PRM和MCTS提升复杂推理能力,后来发现效果有限。
这告诉我们,AI研发不是堆技术就能成,还得讲究适配性,这些经验教训,比单纯的技术突破更有价值。
安全问题始终是大模型绕不开的坎,DeepSeek-R1从训练到部署搞了套组合拳。
训练时用SafetyRewardModel盯着,就像给模型装了个道德指南针,部署层面又加了外部风险控制系统,相当于给模型配了个安检员。
多维度安全测试结果显示,模型在大部分场景表现不错,但在对抗性攻击面前还是有点脆,这也正常,AI安全本就是场持久战。
团队坦诚承认,模型在结构化输出和工具调用方面还有短板,纯RL方法对奖励信号的依赖也让人头疼,如此看来,大模型未来发展得在几个方向使劲。
技术上要继续琢磨怎么提升性能同时降成本,毕竟不是谁都烧得起钱,透明度和安全性的平衡也得把握好,藏着掖着不行,全裸奔也危险。
对付复杂任务,可能得给纯RL找个好搭档,比如结合外部工具或者知识图谱,DeepSeek-R1这篇论文最难得的是透明度。
把训练细节、成本构成、甚至失败经验都抖了出来,这在大模型领域可不多见,这种开放态度,比技术突破本身更有示范意义。
毫无疑问,大模型研发就像在迷雾中前行,每一步都得摸着石头过河,DeepSeek-R1的探索告诉我们,既要敢于颠覆传统,又得保持务实态度。
未来的路还长,技术创新、安全保障、应用拓展,哪样都不能偏废,咱们就等着看,下一个登上Nature封面的AI模型,又能玩出什么新花样。
IEEE Xplore,EI Compendex,Scopus
2026年区块链技术与基础模型国际学术会议(BTFM 2026)IEEE出版
前沿会议