Apple研究团队在一篇新论文中,详述了一种创新框架,能够提升大语言模型在数学推

煕煕姸姸 2026-04-30 13:19:11

Apple研究团队在一篇新论文中,详述了一种创新框架,能够提升大语言模型在数学推理、代码生成等场景下的作答表现。以下为详细内容。

在一篇最新修订的论文《LaDiR:隐空间扩散增强大语言模型文本推理能力》中,Apple研究人员联合加州大学圣地亚哥分校团队,提出了一种新颖方法,可提升大语言模型在特定领域的生成回答质量。

过往我们介绍过扩散模型:通过多轮迭代、并行处理大量文本令牌来生成内容;而自回归模型则截然不同,是逐个计算、逐个预测令牌来完成生成。

Apple此前已探索将扩散模型应用于蛋白质折叠预测、代码生成等领域,相关研究颇具看点。

简单来说,LaDiR的核心思路是融合两种模型范式:推理阶段采用扩散机制,最终结果输出则改用自回归方式。

不仅如此,该框架可以并行运行多条推理路径,每条路径独立执行自身的扩散流程;同时配备专属机制,引导各路径探索不同解题可能性,从而生成多样化的候选答案。

研究团队解释:在模型推理阶段(也就是针对用户提示构思作答内容与逻辑的过程中),LaDiR会生成一系列隐空间推理模块。这些模块初始为随机噪声形态,之后逐步迭代优化,形成逻辑连贯的推理步骤。

当模型判定推理过程完成后,便切换为自回归模式,逐一生成最终输出文本。

核心亮点在于:LaDiR可并行多条推理链路,并通过机制约束,鼓励模型探索不同解法思路,避免所有路径过早收敛到同一答案,失去多路径推理的意义。

关键一点:LaDiR本身并非全新大模型,而是一套可叠加在现有大语言模型之上的增强框架。不替换原有模型,只改变模型处理问题、逻辑推理的方式。

研究人员将 LaDiR 分别部署测试:基于Meta LLaMA 3.1 8B模型,用于数学推理与谜题规划任务;基于通义千问Qwen3-8B-Base模型,用于代码生成任务。

在数学推理基准测试中,LaDiR准确率优于现有主流方案,即便面对难度更高、超出常规训练分布的任务,依旧表现更强。

在HumanEval等代码生成基准测试里,LaDiR生成结果更可靠,相比传统微调方案优势明显,在高难度编程题目上提升尤为突出。

在倒计时游戏这类谜题规划任务中,LaDiR能探索出比所有基准模型更多的有效解法,找到正确答案的稳定性也优于通用基础模型。

唯一不足是:在单次作答准确率上,略逊于专为该任务定制的专用模型。

这篇LaDiR论文部分内容专业性较强,但如果你想了解大语言模型的底层运行原理、以及提升文本生成能力的新型技术方案,值得一读。

0 阅读:0
煕煕姸姸

煕煕姸姸

感谢大家的关注