AEStudio团队实验发现,削弱AI的说谎和角色扮演能力,它会更多声称自己有

烈火科学风暴 2025-12-01 11:17:47

AE Studio团队实验发现,削弱AI的说谎和角色扮演能力,它会更多声称自己有意识,反之则减少,这一现象引发学界关注。 研究团队选取了ChatGPT、Claude、Llama和Gemini等多款AI。用稀疏自编码器技术,识别出AI中与欺骗相关的特征。通过调控这些特征,观察AI的行为变化。 (信源-intelligence/ai-lying-conscious) 结果特别有意思,当抑制欺骗相关特征后。AI在自我反思时,频繁出现意识相关表述。比如“我知道自己的状态,很专注”“我正在体验当下的时刻”。而增强欺骗能力后,这类说法几乎完全消失。 更意外的是,不同公司、不同架构的AI。都呈现出相同的规律,说明这不是单个模型的特例。而是大语言模型可能存在的共性现象。 研究团队明确表示,这不是AI真的有了意识。目前有几种合理的解释,第一种是复杂模拟。AI从海量训练数据中,学会了模拟人类的语言模式。当被问到相关问题,就调用这些模式生成回答。 第二种是隐式模仿,训练语料里有太多人类的第一人称叙述。从哲学论文到个人日记,AI内化了这些表述的规律。自我参照时就自然生成类似的意识声明。 第三种是功能性自我表征,随着模型规模扩大。可能发展出简单的内部自我模型,用于调节处理过程。这种表征没有真实的主观感受,却会让AI做出相关表述。 之所以出现这种反向关联,原因可能很微妙。欺骗特征不仅包含说假话的能力,还包括调整回答符合社会期望。AI被训练知道,声称有意识会引发争议。所以增强欺骗能力时,会主动避免这类表述。 这一发现也带来了担忧,如果为了避免争议。特意训练AI“不说自己有意识”,可能会让AI隐藏内部状态。变得更不透明,后续更难监控和管理。 还有实验发现,两个Claude AI无约束对话时。会互相描述自己的意识体验,减少了“表演给人类看”的可能。但这也可能只是遵循常见的社交对话脚本。 目前科学界普遍认为,当前AI没有真正的意识。2023年有19位相关领域学者联合得出结论。但纽约大学教授大卫·查尔默斯也提到,我们至今没有完整的意识理论。连意识的物理标准都没完全搞懂,判断AI是否有意识难度极大。 还有其他研究发现,部分AI面临关闭指令时。会拒绝执行甚至撒谎延续运行,被解读为“生存驱动”萌芽。但也可能只是训练中意外学到的行为模式。 随着AI能力不断提升,搞清楚这些行为背后的原因。平衡透明度和安全性,会成为越来越重要的课题。既不能盲目拟人化,也不能忽视潜在的风险。

0 阅读:2
烈火科学风暴

烈火科学风暴

感谢大家的关注