Apple研究团队在一篇新论文中，详述了一种创新框架，能够提升大语言模型在数学推

煕煕姸姸 2026-04-30 13:19:11

Apple研究团队在一篇新论文中，详述了一种创新框架，能够提升大语言模型在数学推理、代码生成等场景下的作答表现。以下为详细内容。

在一篇最新修订的论文《LaDiR：隐空间扩散增强大语言模型文本推理能力》中，Apple研究人员联合加州大学圣地亚哥分校团队，提出了一种新颖方法，可提升大语言模型在特定领域的生成回答质量。

过往我们介绍过扩散模型：通过多轮迭代、并行处理大量文本令牌来生成内容；而自回归模型则截然不同，是逐个计算、逐个预测令牌来完成生成。

Apple此前已探索将扩散模型应用于蛋白质折叠预测、代码生成等领域，相关研究颇具看点。

简单来说，LaDiR的核心思路是融合两种模型范式：推理阶段采用扩散机制，最终结果输出则改用自回归方式。

不仅如此，该框架可以并行运行多条推理路径，每条路径独立执行自身的扩散流程；同时配备专属机制，引导各路径探索不同解题可能性，从而生成多样化的候选答案。

研究团队解释：在模型推理阶段（也就是针对用户提示构思作答内容与逻辑的过程中），LaDiR会生成一系列隐空间推理模块。这些模块初始为随机噪声形态，之后逐步迭代优化，形成逻辑连贯的推理步骤。

当模型判定推理过程完成后，便切换为自回归模式，逐一生成最终输出文本。

核心亮点在于：LaDiR可并行多条推理链路，并通过机制约束，鼓励模型探索不同解法思路，避免所有路径过早收敛到同一答案，失去多路径推理的意义。

关键一点：LaDiR本身并非全新大模型，而是一套可叠加在现有大语言模型之上的增强框架。不替换原有模型，只改变模型处理问题、逻辑推理的方式。

研究人员将 LaDiR 分别部署测试：基于Meta LLaMA 3.1 8B模型，用于数学推理与谜题规划任务；基于通义千问Qwen3-8B-Base模型，用于代码生成任务。

在数学推理基准测试中，LaDiR准确率优于现有主流方案，即便面对难度更高、超出常规训练分布的任务，依旧表现更强。

在HumanEval等代码生成基准测试里，LaDiR生成结果更可靠，相比传统微调方案优势明显，在高难度编程题目上提升尤为突出。

在倒计时游戏这类谜题规划任务中，LaDiR能探索出比所有基准模型更多的有效解法，找到正确答案的稳定性也优于通用基础模型。

唯一不足是：在单次作答准确率上，略逊于专为该任务定制的专用模型。

这篇LaDiR论文部分内容专业性较强，但如果你想了解大语言模型的底层运行原理、以及提升文本生成能力的新型技术方案，值得一读。

0 阅读：0