deepseek r1的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》悄悄更新了一个版本。页数大幅增加。不过技术内容基本没变,主要是增加了安全性与伦理声明,补充最新的实验与评估结果等。以及团队在研发过程中尝试过但效果不佳的方法,如 Process Reward Model (PRM) 和 Monte Carlo Tree Search (MCTS),解释了为什么最终没有采用这些技术 。科技先锋官
