[AI]《AgentSecurityisaSystemsProblem

爱生活爱珂珂 2026-05-21 05:58:55

[AI]《Agent Security is a Systems Problem》M Christodorescu, E Fernandes, A Hooda, S Jha… [Google & University of California San Diego] (2026)

在AI代理安全领域,单靠模型对抗提示注入是一个悬而未决的难题。过去的方法受困于让模型自我守门,本质原因是把不可靠组件误放进可信边界。

本文的核心洞见是:把驱动代理的模型重新看作不可信进程。由此,在系统层强制指令/数据分离、最小权限沙箱和信息流控制,使攻击不能只靠一句话越权。

这项工作真正留下的遗产是把代理安全拉回操作系统式设计。它为后来者打开的新门是用可验证机制约束智能体,但尚未跨过的门槛是自然语言意图仍难转成形式化策略。

arxiv.org/abs/2605.18991 机器学习 人工智能 论文 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注