[CL]《OnlineExperientialLearningforLa

爱生活爱珂珂 2026-03-19 05:18:04

[CL]《Online Experiential Learning for Language Models》T Ye, L Dong, Q Dong, X Wu… [Microsoft Research] (2026)

在文本游戏领域，大语言模型部署后积累的真实交互经验被完全丢弃——模型一旦上线即成静态，只能依赖上线前标注的数据或模拟环境，无法从持续涌入的用户反馈中学到任何东西。问题的本质在于：训练侧无法访问用户侧环境，且真实反馈是非结构化文本而非标量奖励，传统强化学习无从消化。

本文的核心洞见是：把"原始交互轨迹"重新看作"可提炼的经验知识"。由此，一个两阶段循环得以成立——先让模型自己从轨迹中归纳出可迁移的策略条目，再通过同策略上下文蒸馏（反向KL散度）将这些知识压进权重，训练全程无需访问用户环境、无需奖励信号。更强的模型产出更高质量的轨迹，提炼出更精炼的经验，驱动下一轮蒸馏，形成自举闭环。

这项工作真正留下的遗产是：证明了"部署即学习"的闭环在无奖励、无环境访问条件下切实可行，且同策略一致性（用自己的轨迹提炼自己的经验）是知识能否内化的关键变量。它为后来者打开的新门是将在线经验学习推广至开放域对话等更复杂场景。但尚未跨过的门槛是：实验仅限于规则明确的文本游戏，经验提炼质量高度依赖模型自身能力，小模型从强模型轨迹中学习的路径尚未打通。

arxiv.org/abs/2603.16856

机器学习人工智能论文 AI创造营

0 阅读：0

猜你喜欢

孙晓云的字上下气韵很连贯，这主要是因为写得熟练，用笔娴熟的前提下才能写出这样的感

孙晓云的字上下气韵很连贯，这主要是因为写得熟练，用笔娴熟的前提下才能写出这样的感

沈鹏先生的字整体的协调感很好，也就是说在动态中做到了很好的平衡，他的字和启功的字

沈鹏先生的字整体的协调感很好，也就是说在动态中做到了很好的平衡，他的字和启功的字

【1点赞】

沈鹏

谭延闿这种看起来既“丑”又“美”的字，是一种境界很高的艺术，是外在的训练和内在的

谭延闿这种看起来既“丑”又“美”的字，是一种境界很高的艺术，是外在的训练和内在的

谭延闿

我怀疑翻译可能有什么执念。

我怀疑翻译可能有什么执念。

【1评论】

资治通鉴藏千年生存智慧：真正的靠山从不是超强能力最近重读《资治通鉴》，那些

资治通鉴藏千年生存智慧：真正的靠山从不是超强能力最近重读《资治通鉴》，那些

【2点赞】

资治通鉴郭子仪

孙过庭奉旨书写的草书，每个字都堪称教科书，这才是王羲之的真正传人！虽然我们把

孙过庭奉旨书写的草书，每个字都堪称教科书，这才是王羲之的真正传人！虽然我们把

【12点赞】

孙过庭

AGI时代下半场，比拼的不再是单纯对话，而是能落地、能干活的智能体能力。小米深夜

AGI时代下半场，比拼的不再是单纯对话，而是能落地、能干活的智能体能力。小米深夜

小米科技 ai

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

晚安～晚安

2

[RO]《When Should a Robot Think? Resource

3

[LG]《Meta-TTRL: A Metacognitive Framewor

4

[LG]《FlashSampling: Fast and Memory-Effi

5

[CL]《Online Experiential Learning for La

6

早！早安

7

晚安～晚安

8

【浏览器就是API：让AI直接用你的登录态】快速阅读：bb-browser让AI

9

【阿里开源 Page Agent：让网页听懂人话的 JavaScript 智能体

10

【ClawTeam：当AI助手学会组团干活】快速阅读：OpenClaw等AI助手

热门分类

科技TOP

1

vivoX300s的爆料也来了，外围规格全部拉满了。6.78英寸144Hz蔡

2

雷军返岗了雷总太厉害了整个假期有6天在滑雪，这其中还是有四天下雪的时间，我现在连

3

追觅手机研发首期投入100亿追觅手机开始计划投资100亿，目标到2027年手机团

4

成本压力下，各家都在温和调整3月16日0点，OPPO商城正式开启调价：•一加1

5

国家超算互联网免费支持OpenClaw国家超算互联网免费给OpenCla

6

当下高端手机市场同质化严重，各大品牌陷入参数堆砌的内卷怪圈，追觅AURORA手机

7

真我暂停新机研发啊？？？假的吧，咋可能，前不久不是刚回归OPPO吗，而且rea

8

苹果iOS26.4Beta4可以关掉液态玻璃刺眼动效其实关于玻璃透明效果，

9

这就是你的iPhoneFold

10

真是没有对比就没有伤害iPhone17系列2292万+华为mate80系列3

科技最新文章

1

这个加了风扇的华为Mate80ProMax风驰版是不是有点多此一举了？你说

2

马斯克扔出“王炸”，再次抛出惊人言论！他说：“2030年开始，人类将面临大规模失

3

手机段位榜出炉！荣耀这梯队太清晰了🔥如果手机也有段位，荣耀全系列排名直接

4

荣耀5款真香机盘点！全价位闭眼冲✨荣耀这五款高性价比机型直接覆盖所有需求，

5

荣耀年度旗舰Magic9Pro这次配置很实在，日常用很省心。搭载骁龙8El

6

5K价位闭眼冲！用3-5年无压力的旗舰机来了✨预算5000左右，想一步到位

7

从苹果到华为，发现有几点问题😓前两天手机摔坏了一直用的iPhone，想换个

8

苹果已经彻底疯狂，不知天地为何物了...iPhone17系列开售180天，

9

目前内存大涨价，荣耀也是没抗住，涨了1000荣耀MagicV6相对V5可以

10

荣耀也开始调价了，荣耀X70和荣耀500上架了一个焕新版本，价格上调300块，客