[LG]《UnlearningThatLasts:Utility-Pres

爱生活爱珂珂 2025-09-05 06:33:16

[LG]《Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs》N D Singh, M Müller, F Croce, M Hein [University of Tübingen & EPFL] (2025)

在大规模语言模型(LLM)中实现可靠且持久的“遗忘”成为确保模型安全性的关键需求,尤其是在删除私密数据或有害信息时。本文提出的JensUn方法,基于Jensen-Shannon Divergence(JSD)构建了一个稳定且高效的遗忘训练目标,显著超越当前主流方法。

• JensUn通过最小化模型输出与目标“拒答”分布(如“No idea”)的JSD,实现精准遗忘,同时保持对保留数据的分布一致性,保证模型整体效用不受损害。

• JSD相较于传统的交叉熵或KL散度,具有上下界限,梯度稳定,防止遗忘过程中的性能崩溃,支持更长周期训练以达到更优遗忘-效用权衡。

• 提出全新的评估框架:用高能力LLM作为语义判断者代替ROUGE分数,显著提升事实遗忘质量的判别准确度;采用多达15种不同措辞的最坏情况评估,确保遗忘效果不被简单重述绕过。

• 构建了Lesser-Known Facts (LKF)数据集,专注于非广为人知的事实,避免了已有遗忘数据集中过于简单的二元问题和虚构信息,提供更真实且严苛的遗忘测试环境。

• JensUn在LKF和RWKU两大遗忘基准上表现卓越,实现遗忘准确率近0%,同时保持模型在多项通用能力指标(MMLU、AlpacaEval响应质量、文本重复度)上的高效用。

• 验证了JensUn对“良性再学习”具备强韧性,模型在遗忘后即使接受无关数据微调,也难以恢复原有遗忘信息,表明遗忘效果接近不可逆。

心得:

1. 选择合适的损失函数对遗忘训练至关重要,JSD的界限性和对称性使其在平衡遗忘和效用保护方面表现优异。

2. 遗忘评估应注重语义理解和表达多样性,单一格式或传统词汇匹配指标严重高估遗忘效果,必须采用多措辞和语义判定结合的最坏情况评估。

3. 真实且细粒度的问题设计(如LKF)能更有效反映遗忘方法的实际能力,避免遗忘简单事实或虚构内容带来的误导性评估。

JensUn代表了LLM遗忘研究迈向更安全、可靠应用的重要进步,为未来隐私保护和模型治理奠定坚实基础。

详见🔗 arxiv.org/abs/2509.02820

大规模语言模型机器遗忘JensenShannonDivergence模型安全人工智能

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注