科研资讯

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

研发家 | 2026-01-12

0

2025年9月17日，DeepSeek-R1论文以封面文章形式登上Nature杂志，这是全球首个通过顶级期刊独立同行评审的主流大语言模型。

这篇论文从2月14日投稿到正式发表，足足经历了8位外部专家5个月的严格审查。

今天咱们就来好好聊聊这篇论文第二版里藏着的技术干货，看看大模型研发到底有哪些新突破。

说到大模型训练，业内一直头疼PPO算法的局限，传统PPO在处理大规模数据时，价值模型经常跑偏，就像用指南针在磁场紊乱区导航，走着走着就偏了方向。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

DeepSeek团队另辟蹊径搞出的GRPO算法，直接把价值模型给"咔嚓"掉了。

GRPO最绝的是用组内排名思路做优势估计，简单说，就是把模型生成的答案分组打分，通过比较同一组内不同答案的好坏来调整参数。

打个比方，以前老师改作业是挨个给分，现在是把作业分成小组，先比出组内优劣再给分，效率和准确性都提升不少，在MATH任务测试里，GRPO直接实现"开箱即用"。

传统PPO得反复调参才能勉强出结果，GRPO第一次跑就达到了相当不错的水平，这波操作确实让不少同行眼前一亮，原来强化学习还能这么玩。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

光有好算法还不够，DeepSeek-R1的训练基础设施也下了功夫，整个架构拆成四大模块：Rollout负责生成样本，Inference处理推理请求，Rule-basedReward专门打分，Training模块管参数更新，四个模块各司其职，又能协同工作。

他们搞的异步调度和显存动态卸载策略，简直是为大模型训练量身定做，就像搬家时合理规划车辆和路线，既不浪费空间又不耽误时间。

还有那个Multi-TokenPrediction组件，能一次性预测多个token，相当于原本一次搬一块砖，现在能一次搬一摞，效率自然上去了，最让人意外的是训练成本。

增量训练总花费约29.4万美元，这在大模型领域算是相当克制了，其中RL阶段占了大头，但相比其他动辄上千万美元的项目，这笔钱花得确实精明。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

说到训练过程，DeepSeek-R1的四阶段流水线堪称教科书级别的操作，第一阶段纯RL训练就搞出了"AhaMoment"现象，模型突然像打通任督二脉，数学能力飙升。

但问题也来了，生成内容可读性差，还经常混杂多种语言，活像个刚学说话的孩子，无奈之下团队启动第二阶段，先搞冷启动SFT再上RL。

这步相当于给模型请了个语文老师，把表达能力提上来了，到第三阶段又玩起拒绝采样，专门过滤差答案，同时扩大SFT规模，让模型既能解题又会聊天。

最后全场景RL阶段，把各种奖励机制揉到一起，才算大功告成，中间检查点的性能变化也挺有意思。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

Dev1版本指令遵循能力上去了，AIME竞赛分数却掉了，典型的顾此失彼，Dev2版本把推理性能拉了回来，甚至超过最初的R1-Zero。

到Dev3版本才算摸到天花板，各方面性能都达到最佳状态，做研究哪有一帆风顺的，DeepSeek团队也踩了不少坑。

他们对比蒸馏和强化学习发现，中小规模模型用蒸馏性价比更高，就像小店面没必要搞连锁管理系统。

关于模型规模和推理能力的关系，他们发现推理能力涌现确实有门槛，但不是规模越大就一定越好，本来想靠PRM和MCTS提升复杂推理能力，后来发现效果有限。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

这告诉我们，AI研发不是堆技术就能成，还得讲究适配性，这些经验教训，比单纯的技术突破更有价值。

安全问题始终是大模型绕不开的坎，DeepSeek-R1从训练到部署搞了套组合拳。

训练时用SafetyRewardModel盯着，就像给模型装了个道德指南针，部署层面又加了外部风险控制系统，相当于给模型配了个安检员。

多维度安全测试结果显示，模型在大部分场景表现不错，但在对抗性攻击面前还是有点脆，这也正常，AI安全本就是场持久战。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

团队坦诚承认，模型在结构化输出和工具调用方面还有短板，纯RL方法对奖励信号的依赖也让人头疼，如此看来，大模型未来发展得在几个方向使劲。

技术上要继续琢磨怎么提升性能同时降成本，毕竟不是谁都烧得起钱，透明度和安全性的平衡也得把握好，藏着掖着不行，全裸奔也危险。

对付复杂任务，可能得给纯RL找个好搭档，比如结合外部工具或者知识图谱，DeepSeek-R1这篇论文最难得的是透明度。

把训练细节、成本构成、甚至失败经验都抖了出来，这在大模型领域可不多见，这种开放态度，比技术突破本身更有示范意义。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

毫无疑问，大模型研发就像在迷雾中前行，每一步都得摸着石头过河，DeepSeek-R1的探索告诉我们，既要敢于颠覆传统，又得保持务实态度。

未来的路还长，技术创新、安全保障、应用拓展，哪样都不能偏废，咱们就等着看，下一个登上Nature封面的AI模型，又能玩出什么新花样。

版权及免责声明：本网站所有文章除标明原创外，均来自网络。登载本文的目的为传播行业信息，内容仅供参考，如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权

分享

赞一个

0

< 上一篇下一篇 >

推荐会议更多>>

IEEE出版｜2026年区块链技术与基础模型国际学术会议（BTFM 2026）

IEEE Xplore,EI Compendex,Scopus

IEEE出版｜2026年区块链技术与基础模型国际学术会议（BTFM 2026）

IEEE出版

前沿会议

2026-03-20 - 2026-03-22

IOP-JPCS出版｜2026年高端装备与智能机器人国际学术会议（ICAEIR 2026）

EI Compendex,Scopus

IOP-JPCS出版｜2026年高端装备与智能机器人国际学术会议（ICAEIR 2026）

交叉学科

官方推荐

2026-03-27 - 2026-03-29

IEEE出版 | 2026年计算智能与机器学习国际学术会议（CIML 2026）

EI Compendex,Scopus,IEEE Xplore

IEEE出版 | 2026年计算智能与机器学习国际学术会议（CIML 2026）

早鸟价

官方推荐

2026-03-27 - 2026-03-29

IOP-JPCS出版｜2026年能源系统与未来电网国际学术会议（ESFG 2026）

EI Compendex,Scopus

IOP-JPCS出版｜2026年能源系统与未来电网国际学术会议（ESFG 2026）

检索稳定

IOP出版

2026-03-27 - 2026-03-29

IOP-JPCS出版｜第二届控制系统与电气工程国际学术会议(ICCSEE 2026)

EI Compendex,Scopus

IOP-JPCS出版｜第二届控制系统与电气工程国际学术会议(ICCSEE 2026)

多届检索

热门会议

2026-04-17 - 2026-04-19

IOP-JPCS出版｜2026年计算力学与智能系统国际学术会议（CMSS 2026）

EI Compendex,Scopus

IOP-JPCS出版｜2026年计算力学与智能系统国际学术会议（CMSS 2026）

新会上线

前沿会议

2026-04-17 - 2026-04-19

IEEE出版 | 2026年智能感知与自主控制国际学术会议（IPAC 2026）

EI Compendex,Scopus

IEEE出版 | 2026年智能感知与自主控制国际学术会议（IPAC 2026）

优质会议

早鸟价

2026-04-24 - 2026-04-26

IOP-JPCS出版｜2026年先进电子与自动化技术国际学术会议（AEAT 2026）

EI Compendex,Scopus

IOP-JPCS出版｜2026年先进电子与自动化技术国际学术会议（AEAT 2026）

官方推荐

IOP出版

2026-04-24 - 2026-04-26