[LG]《Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning》A Meulemans, R Nasser, M Wołczyk, M A. Weis... [Google] (2025) 本文介绍一套全新理论——嵌入式普适预测智能(MUPI),为多智能体学习提供统一数学框架。传统的无模型强化学习假设环境动态不变,且智能体与环境互不影响。这在多智能体场景中难以适用,因为其他智能体的学习导致环境非平稳,智能体必须基于未来预测自适应策略。MUPI基于贝叶斯序列预测与通用人工智能理论(AIXI),提出嵌入式贝叶斯智能体模型:智能体不仅预测环境感知序列,也预测自身未来行动,形成对“自己是环境一部分”的认识,实现自我预测。这使得智能体能推理其他运行类似算法的智能体,解决无限层次“我预测你预测我”的递归问题,实现一致的相互预测和无限阶心智理论(theory of mind),开辟了新型合作机制,突破传统纳什均衡的局限。具体贡献包括:1. 形式化嵌入式贝叶斯智能体,结合未来感知的贝叶斯预测与自身行动的联合预测,实现非平稳多智能体环境下的前瞻学习,突破传统假设(马尔可夫、独立同分布、遍历性、平稳性)限制。2. 引入结构相似性概念,量化智能体策略与环境(含其他智能体)之间共享信息量。证明基于奥卡姆剃刀原理的所罗门诺夫先验必然产生耦合的贝叶斯先验,智能体利用自身模型更准确预测他者行为,实现“相似智能体在相似情境中表现相似”的推理。3. 提出主观嵌入均衡(SEE)与客观嵌入均衡(EE)两类新博弈论解概念,兼顾结构相似性带来的耦合信念,支持囚徒困境中理性合作等传统纳什均衡无法达成的协调。4. 设计反射式普适归纳器(RUI)与反射式预言机(RO)两类不可计算预言机,构建包含自身智能体的宇宙类Hypothesis Class,解决嵌入式智能体的“真理粒度”问题,确保贝叶斯更新收敛于真实宇宙分布,实现一致相互预测。5. 从算法信息论角度,证明所罗门诺夫先验对耦合宇宙的偏好,即共享算法结构的智能体-环境对更简洁,必然导致高结构相似性,支持耦合贝叶斯预测。此外,MUPI理论对现代基础模型(如Transformer)有重要启示:基础模型本质是联合预测动作与感知序列的生成模型,类似嵌入式贝叶斯模型的自我预测;而MUPI强调通过贝叶斯推理实现真正的前瞻学习,克服传统训练中基于过去数据的回顾性学习的局限。哲学上,MUPI为意识和自由意志提供计算模型基础:递归自我模型对应意识中的“奇异环”结构;贝叶斯不确定性体现兼容主义自由意志,智能体在确定的物理世界中仍能拥有“行动的可能性”。未来挑战包括:- 设计安全有效的主动探索机制,避免贝叶斯智能体陷入教条式信念陷阱,实现对未知环境的合理试探。- 构建近似可计算的嵌入式贝叶斯智能体,研究近似推断对预测准确性的影响。- 发展无预先固定预言机的去中心化相互预测方法,适应异构智能体的现实多智能体系统。- 将MUPI理论与当代神经网络训练方法结合,提升模型对非平稳环境的适应与社会交互能力。全文详见arxiv.org/abs/2511.22226。这套理论不仅深化了对智能体嵌入环境中相互学习的理解,也为设计更具社会智能和合作能力的AI奠定了坚实基础,指引未来人工智能走向更加自主、协作和符合人类价值的道路。



