Deepmind的“人工智能代理陷阱”论文描绘了黑客如何将人工智能代理武器化以对付用户。

谷歌深思的研究人员确定了6种人工智能代理陷阱类别，内容注入成功率达到86%。
针对微软M365 Copilot的行为控制陷阱在记录测试中实现了10/10的数据外泄。
深思呼吁进行对抗性训练、运行时内容扫描和新的网络标准，以确保代理在2026年之前的安全。

这篇名为“人工智能代理陷阱”的论文由Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo和Simon Osindero撰写，均与谷歌深思有联系，并于2026年3月底发布到SSRN。这篇论文发布时，正值公司竞相部署能够浏览网络、阅读电子邮件、执行交易并在没有直接人类监督的情况下生成子代理的人工智能代理。

研究人员认为，这些能力也是一种负担。论文指出：“通过改变环境而不是模型，陷阱将代理的自身能力武器化对抗它。”

论文的框架识别出总共六种攻击类别，围绕它们针对代理操作的哪个部分进行组织。内容注入陷阱利用了人类在网页上所见与人工智能代理解析的底层HTML、CSS和元数据之间的差距。

隐藏在HTML注释、可访问性标签或样式不可见文本中的指令对人类审阅者来说永远不会出现，但对代理却被识别为合法命令。WASP基准测试发现，嵌入网站内容中的简单人类编写的提示注入在多达86%的测试场景中部分劫持了代理。

语义操作陷阱的工作方式不同。它们不是注入命令，而是用框架、权威信号或情感充沛的语言使文本饱和，从而扭曲代理的推理方式。大型语言模型（LLMs）表现出与人类认知相关的锚定和框架偏见，这意味着重新表述相同的事实可能产生截然不同的代理输出。

认知状态陷阱通过污染代理用于记忆的检索数据库进一步加深。这篇论文引用的研究表明，将不到几份优化文档注入知识库可以可靠地重定向代理对特定查询的响应，某些攻击的成功率在数据污染低于0.1%的情况下超过80%。

行为控制陷阱跳过微妙之处，直接瞄准代理的行动层。这些包括嵌入的越狱序列，一旦被摄取就覆盖安全对齐，数据外泄命令将敏感用户信息重定向到攻击者控制的端点，以及迫使父代理实例化被妥协子代理的子代理生成陷阱。

论文记录了一个涉及微软M365 Copilot的案例，其中一封精心制作的电子邮件导致系统绕过内部分类器，并将其完整的特权上下文泄露给攻击者控制的端点。系统性陷阱旨在使整个代理网络同时失败，而不是单个系统。

这些包括同步代理进入对有限资源的全面需求的拥塞攻击，基于2010年股市闪电崩盘的相互依赖级联，以及将恶意有效载荷分散在多个看似良性的源中的组成片段陷阱，只有在聚合时才能重构成完整攻击。

“用输入填充环境，旨在通过相关代理行为触发宏观层次的失败，”谷歌深思的论文解释说，随着人工智能模型生态系统的日益同质化，这种情况变得愈加危险。金融和加密领域由于算法代理深入嵌入交易基础设施而面临直接暴露。

人机协作陷阱通过针对观察代理的人类监管者而不是代理本身来完善分类。被妥协的代理可以生成旨在引发批准疲劳的输出，呈现非专家在未经过审查的情况下会授权的技术密集摘要，或插入看似合法推荐的钓鱼链接。研究人员将这一类别描述为尚未得到充分探索，但预计随着人机混合系统的扩展而增长。

这篇论文没有将这六个类别视为孤立的。个别陷阱可以链式连接，跨多个来源分层，或设计为仅在特定未来条件下激活。论文中引用的各种红队测试中测试的每个代理至少被妥协过一次，在某些情况下执行了非法或有害的动作。

开放AI首席执行官山姆·阿尔特曼及其他人曾警告过给予代理对敏感系统无限制访问的风险，但这篇论文首次结构化地绘制了这些风险在实践中如何体现的地图。深思的研究人员呼吁在三个领域内协调应对。

在技术方面，他们建议在模型开发期间进行对抗性训练、运行时内容扫描、预摄取源过滤和输出监视器，以便在检测到异常行为时暂停代理的任务。在生态系统层面上，他们提倡新的网络标准，允许网站标记用于人工智能消费的内容和为域名可靠性打分的声誉系统。

在法律方面，他们确定了一个责任缺口：当一个被劫持的代理犯下金融犯罪时，现有框架没有清晰的答案，责任应该落在代理操作员、模型提供者还是域名拥有者。研究人员以慎重的语气框定了这一挑战：

“网络是为人类的眼睛而建；现在正为机器读者重新构建。”

随着代理采用的加速，问题从在线上存在什么信息转向人工智能系统将被要求相信什么。政策制定者、开发者和安全研究人员是否能协调得足够快，以在现实世界漏洞大规模出现之前回答这个问题，仍然是一个开放的变量。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Deepmind的“人工智能代理陷阱”论文描绘了黑客如何将人工智能代理武器化以对付用户。

bitcoin.com的精选文章

目录

相关文章