DeepSeek-R1和QwQ-32B这样的模型中增强的推理能力并非仅仅源

智能亲爱的你 2026-05-11 10:51:58

DeepSeek-R1 和 QwQ-32B 这样的模型中增强的推理能力并非仅仅源于扩展的计算，而是源于模拟类似多智能体的交互——一个“思想社会（society of thought）”——从而能够在具有不同个性特征和领域专业知识的内部认知视角之间进行多样化和辩论。多智能体内部动态：通过机制可解释性分析，推理模型展现出比指令调整模型更大的视角多样性，在推理过程中激活了异质个性和专业知识相关特征之间更广泛的冲突。对话行为提升准确性：多主体结构体现在问答、视角转换和冲突观点的调和等方面。这些构成对话特征的社会情感角色解释了推理任务中准确性的优势。从准确性奖励中涌现：受控强化学习实验表明，当仅因推理准确性而获得奖励时，基础模型自然会增加对话行为，这表明这种结构是从优化压力中自然产生的。通过脚手架（scaffolding）加速改进：利用对话式脚手架对模型进行微调，可以加速推理能力的提升，为增强推理能力提供了一条切实可行的途径。与集体智慧平行：研究结果表明，推理模型建立了一种与人类集体智慧类似的计算方法，其中多样性在系统地构建时能够实现更卓越的问题解决能力，为智能体组织开辟了新的机遇。

0 阅读：0

智能亲爱的你

感谢大家的关注

作者最新文章

1

阿里又出了千问云？谁来聊聊 1.不用去阿里云官网翻模型服务入口 2.做很多很多千

2

Docs Live 是 Google Docs 的"语音版"，你不再用键盘敲文

3

一个产品纯用AI干可以每天发三个版本，结果用户跟不上…

4

说句得罪人的话：很多人看不懂 CMA （Claude Managed Agent

5

Apple 正式宣布库克将卸任 CEO 。自 2011 年接替已故的乔布斯以来，

6

马斯克旗下人工智能xAI公司领导班子调整：新任总裁Michael Nicholl

7

换Harness，是不是整个推倒重来？ Harness 不是整个推倒重来 Har

8

阿里千问林俊旸离职

9

到底谁便宜？Gemini 3.1 Pro是"性价比之王"吗？ “亲爱的数据”观

10

为科学发现引入了测试时训练机制，在测试时执行强化学习，使 LLM 能够持续地利用

热门分类

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

3

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

4

我也越来越像个“旁观者”……用过功能机、翻盖机，也见过智能机怎么一步步把生活

5

折叠屏这些年一直被吐槽“能用但不好用”，所以到底是不好用还是做不好？这次华为

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

主流大模型横向横评：DeepSeek最新一代到底强在哪？

8

一部地图，如何逼得苹果CEO公开承认错误

9

ColorOS16这个界面

10

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

科技最新文章

1

我肯定是有就必升，可以最快体验到新功能，这样才有乐趣，可以一直保持新鲜感。

2

荣耀影像这是要彻底支棱起来了！就在刚才，有数码大佬爆料，今年荣耀旗舰机全系要换上

3

姜乘澜化妆要顺应头发质感苹果预告两项新辅助功能，一是个人视频自动字幕功能，适用

4

DeepSeek崩了应该刚恢复吧，建议DeepSeek效仿豆包分基础和专业，收点

5

这几天运势不好～换个红壳冲冲喜

6

荣耀这也太狠了！这是要把友商往绝路上逼的节奏[捂脸哭]荣耀X80GT将作为今年

7

今年618想要买到便宜手机并不容易，很多机型都是在国补、平台券、以旧换新叠加后，

8

京东六大品牌手机集体降价618开始了，大家买手机的记得多蹲蹲优惠，每年618换机

9

国产手机突然降价2000元也只是个别机型降价2000，甚至更多，而且还是老机型，

10

英伟达财报净利润583亿美元？？？老黄真赚钱英伟达Q1净利润583亿美元