[LG]《Introspective X Training: Feedback Conditioning Improves Scaling Across all LLM Training Stages》B Cui, X Lu, J Jung, S N Akter… [NVIDIA] (2026)
在LLM训练领域,算力效率是一个悬而未决的难题。过去的方法受困于预训练、后训练各自为政,本质原因是质量反馈只在后期出现,早期仍把所有文本等价吞下。
本文的核心洞见是:把训练样本重新看作可被反馈标注的经验。由此,用奖励模型给文本写评分与批注,再把批注作为前缀参与预测,使模型从预训练起学会区分“该学什么”。
这项工作真正留下的遗产是让后训练的评价信号反向流入全流程。它为后来者打开的新门是用自然语言反馈弯曲 scaling 曲线,但尚未跨过的门槛是领域化 rubric、动态重标注与更细粒度条件控制。
arxiv.org/abs/2605.20285 机器学习 人工智能 论文 AI创造营








