科研资讯

DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

研发家 | 2026-01-12
0

2025年9月17日,DeepSeek-R1论文以封面文章形式登上Nature杂志,这是全球首个通过顶级期刊独立同行评审的主流大语言模型。

这篇论文从2月14日投稿到正式发表,足足经历了8位外部专家5个月的严格审查。

今天咱们就来好好聊聊这篇论文第二版里藏着的技术干货,看看大模型研发到底有哪些新突破。

说到大模型训练,业内一直头疼PPO算法的局限,传统PPO在处理大规模数据时,价值模型经常跑偏,就像用指南针在磁场紊乱区导航,走着走着就偏了方向。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

DeepSeek团队另辟蹊径搞出的GRPO算法,直接把价值模型给"咔嚓"掉了。

GRPO最绝的是用组内排名思路做优势估计,简单说,就是把模型生成的答案分组打分,通过比较同一组内不同答案的好坏来调整参数。

打个比方,以前老师改作业是挨个给分,现在是把作业分成小组,先比出组内优劣再给分,效率和准确性都提升不少,在MATH任务测试里,GRPO直接实现"开箱即用"。

传统PPO得反复调参才能勉强出结果,GRPO第一次跑就达到了相当不错的水平,这波操作确实让不少同行眼前一亮,原来强化学习还能这么玩。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

光有好算法还不够,DeepSeek-R1的训练基础设施也下了功夫,整个架构拆成四大模块:Rollout负责生成样本,Inference处理推理请求,Rule-basedReward专门打分,Training模块管参数更新,四个模块各司其职,又能协同工作。

他们搞的异步调度和显存动态卸载策略,简直是为大模型训练量身定做,就像搬家时合理规划车辆和路线,既不浪费空间又不耽误时间。

还有那个Multi-TokenPrediction组件,能一次性预测多个token,相当于原本一次搬一块砖,现在能一次搬一摞,效率自然上去了,最让人意外的是训练成本。

增量训练总花费约29.4万美元,这在大模型领域算是相当克制了,其中RL阶段占了大头,但相比其他动辄上千万美元的项目,这笔钱花得确实精明。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

说到训练过程,DeepSeek-R1的四阶段流水线堪称教科书级别的操作,第一阶段纯RL训练就搞出了"AhaMoment"现象,模型突然像打通任督二脉,数学能力飙升。

但问题也来了,生成内容可读性差,还经常混杂多种语言,活像个刚学说话的孩子,无奈之下团队启动第二阶段,先搞冷启动SFT再上RL。

这步相当于给模型请了个语文老师,把表达能力提上来了,到第三阶段又玩起拒绝采样,专门过滤差答案,同时扩大SFT规模,让模型既能解题又会聊天。

最后全场景RL阶段,把各种奖励机制揉到一起,才算大功告成,中间检查点的性能变化也挺有意思。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

Dev1版本指令遵循能力上去了,AIME竞赛分数却掉了,典型的顾此失彼,Dev2版本把推理性能拉了回来,甚至超过最初的R1-Zero。

到Dev3版本才算摸到天花板,各方面性能都达到最佳状态,做研究哪有一帆风顺的,DeepSeek团队也踩了不少坑。

他们对比蒸馏和强化学习发现,中小规模模型用蒸馏性价比更高,就像小店面没必要搞连锁管理系统。

关于模型规模和推理能力的关系,他们发现推理能力涌现确实有门槛,但不是规模越大就一定越好,本来想靠PRM和MCTS提升复杂推理能力,后来发现效果有限。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

这告诉我们,AI研发不是堆技术就能成,还得讲究适配性,这些经验教训,比单纯的技术突破更有价值。

安全问题始终是大模型绕不开的坎,DeepSeek-R1从训练到部署搞了套组合拳。

训练时用SafetyRewardModel盯着,就像给模型装了个道德指南针,部署层面又加了外部风险控制系统,相当于给模型配了个安检员。

多维度安全测试结果显示,模型在大部分场景表现不错,但在对抗性攻击面前还是有点脆,这也正常,AI安全本就是场持久战。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

团队坦诚承认,模型在结构化输出和工具调用方面还有短板,纯RL方法对奖励信号的依赖也让人头疼,如此看来,大模型未来发展得在几个方向使劲。

技术上要继续琢磨怎么提升性能同时降成本,毕竟不是谁都烧得起钱,透明度和安全性的平衡也得把握好,藏着掖着不行,全裸奔也危险。

对付复杂任务,可能得给纯RL找个好搭档,比如结合外部工具或者知识图谱,DeepSeek-R1这篇论文最难得的是透明度。

把训练细节、成本构成、甚至失败经验都抖了出来,这在大模型领域可不多见,这种开放态度,比技术突破本身更有示范意义。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

毫无疑问,大模型研发就像在迷雾中前行,每一步都得摸着石头过河,DeepSeek-R1的探索告诉我们,既要敢于颠覆传统,又得保持务实态度。

未来的路还长,技术创新、安全保障、应用拓展,哪样都不能偏废,咱们就等着看,下一个登上Nature封面的AI模型,又能玩出什么新花样。

版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
分享

赞一个

0
推荐会议 更多>>
JPCS出版|2026年先进复合材料、聚合物和纳米技术国际学术会议(ACMPN2026)

EI Compendex,Scopus

JPCS出版|2026年先进复合材料、聚合物和纳米技术国际学术会议(ACMPN2026)

热门会议

快速见刊

2026-01-30 - 2026-02-01
第四届机械工程与先进制造智能化技术研讨会(MEAMIT 2026)

EI Compendex,Scopus

第四届机械工程与先进制造智能化技术研讨会(MEAMIT 2026)

多届检索

IOP出版

2026-01-30 - 2026-02-01
2026年大湾区具身智能论坛(EI-OAHV 2026)

EI Compendex,Scopus

2026年大湾区具身智能论坛(EI-OAHV 2026)

前沿会议

985主办

2026-01-16 - 2026-01-18
第二届管理与智能社会发展国际学术会议(MISD 2026)

CPCI,CNKI

第二届管理与智能社会发展国际学术会议(MISD 2026)

热门会议

快速见刊

2026-02-06 - 2026-02-08
2026年区块链技术与基础模型国际学术会议(BTFM 2026)

IEEE Xplore,EI Compendex,Scopus

2026年区块链技术与基础模型国际学术会议(BTFM 2026)

IEEE出版

前沿会议

2026-03-20 - 2026-03-22
2026年高端装备与智能机器人国际学术会议 (ICAEIR 2026)

EI Compendex,Scopus

2026年高端装备与智能机器人国际学术会议 (ICAEIR 2026)

热门会议

前沿会议

2026-03-27 - 2026-03-29
IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)

EI Compendex,Scopus

IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)

早鸟价

官方推荐

2026-03-27 - 2026-03-29
2026年能源系统与未来电网国际学术会议(ESFG 2026)

EI Compendex,Scopus

2026年能源系统与未来电网国际学术会议(ESFG 2026)

IOS出版

检索稳定

2026-03-27 - 2026-03-29