[LG]《EvolvingLanguageModelswithoutLa

爱生活爱珂珂 2025-09-21 08:50:09

[LG]《Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation》Y Zhou, Z Liang, H Liu, W Yu... [Tencent AI Lab] (2025)

大语言模型（LLMs）无标签自我进化的关键突破：EVOL-RL

• 传统无标签自我训练依赖多数投票（majority vote）稳定学习，但导致探索能力下降，出现“熵崩溃”——生成答案趋同、简短且脆弱。

• EVOL-RL结合“多数投票选优+语义新颖度奖励”，在保持稳定锚点的同时激励变异，防止模型陷入单一解空间，持续激发多样化推理路径。

• 采用GRPO算法，配合不对称策略剪辑和熵正则化，保障强信号保留与搜索多样性，显著延长推理链条，提高pass• 大幅提升数学推理基准（AIME25等）表现：Qwen3-4B基线模型pass• EVOL-RL不仅适用于无标签环境，同样强化有标签RL训练效果，展现极强通用性和稳定性。

心得：

1. 单一多数信号虽稳但终陷局，保持多样性和探索是模型持续进化的核心。

2. 语义层面测量新颖度比单纯答案差异更有效，促进多元推理风格共存。

3. 训练策略需兼顾强信号保留与探索激励，三者协同才能突破传统自训练瓶颈。

详情🔗arxiv.org/abs/2509.15194

大语言模型无标签学习自我进化强化学习机器学习数学推理

0 阅读：0

猜你喜欢

文案自理吧。。。

文案自理吧。。。

【3点赞】

写得很真实。

写得很真实。

【1点赞】

冰箱

唐代诗人中的“高官天团”：不止会写诗，更会做官！很多人以为诗人都是潇洒不羁的“

唐代诗人中的“高官天团”：不止会写诗，更会做官！很多人以为诗人都是潇洒不羁的“

唐朝韦应物骆宾王柳宗元

这个书法很好，就是不知道啥字，有知道的吗？

这个书法很好，就是不知道啥字，有知道的吗？

【3评论】【1点赞】

书法

周也玉面观音相[点赞]

周也玉面观音相[点赞]

周也

🗼

【3评论】【113点赞】

一块3000年前的法老金镯子，被博物馆自己人偷走熔成了金疙瘩，转手才卖了2.8万

一块3000年前的法老金镯子，被博物馆自己人偷走熔成了金疙瘩，转手才卖了2.8万

博物馆

出现一下

出现一下

【2点赞】

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

大型多模态模型进入个性化时代，如何用3-5张图像精准定制专属理解与生成能力？•

2

大语言模型（LLM）正在重新定义推荐系统的边界，显著提升效果同时避免在线推理延时

3

文颜：一款专为多平台内容创作者设计的 Markdown 排版美化工具，极大提升文

4

AI助力软件交付正从代码生成迈向全生命周期优化，真正实现快速、安全与高可靠。新书

5

AI正重塑软件开发，程序员角色正从“编写代码”转向“引导AI协作”。新书《Bey

6

想系统掌握 AI 和机器学习，且不愿被高深数学困扰？新书《AI and ML f

7

数据驱动决策的核心在于统计学。新书《Statistics Every Progr

8

[人人能懂] 从“通用大脑”到“模拟驾校”本期节目，我们将一起探索AI如何变得更

9

[CV]《Neural Cellular Automata: From Cell

10

[LG]《Evolving Language Models without La

热门分类

科技TOP

1

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

2

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

3

离职前，OPPO产品经理莫妮卡与客户网友的同框合影照。莫妮卡不仅漂亮清爽，还亲切

4

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

5

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

6

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

7

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

8

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

9

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

10

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

科技最新文章

1

荣耀Magic8系列真机这就曝光了？有人居然提前曝光了荣耀Magic8pr

2

小米17系列，定档9月25日晚，刚好星期四。vivoX300系列，定档10

3

今年的雷军年度演讲注定不平凡。汽车与芯片，这两大公认的“硬骨头”，小米不仅同时啃

4

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

5

好家伙，大早上的突然宣布了！2025雷军年度演讲定在9月25日晚7点，所以小

6

雷军年度演讲这一次，雷总的主题是《改变》。玄戒O1+小米汽车，5年的时间犹如白驹

7

热知识，每一年度的雷军年度演讲都会伴随着产品发布会一起，雷总一个人全程讲完三个小

8

相当于官宣了发布会时间，本周四晚上雷军年度演讲和小米17的发布会一起开。今年确实

9

就离谱，本以为5099的iPhone17已经是极限，当4899的17出来后，友商

10

一加15真机曝光，外观延续一加13T的风格，后置三摄，deco有点大。骁龙8