堆代码讯 正当OpenAI全力加强其Atlas AI浏览器以抵御网络攻击之际,该公司坦言,提示注入这种攻击手段——即通过隐藏在网页或邮件中的恶意指令操纵AI智能体——引发的风险短期内难以根除,这引发了人们对AI智能体在开放网络中运行安全性的深刻担忧。"提示注入攻击就像网络诈骗和社会工程学攻击一样,很可能永远无法被彻底'解决',"OpenAI在周一的博客文章中写道,详细阐述了公司如何增强Atlas的防御体系以应对持续不断的攻击。该公司承认,ChatGPT Atlas的"智能体模式""扩大了安全威胁的暴露面"。
去年十月OpenAI推出ChatGPT Atlas浏览器后,安全研究人员竞相发布验证演示,证明只需在谷歌文档中写入特定文字就能改变底层浏览器的行为。同日,Brave浏览器发布博文指出,间接提示注入是对所有AI浏览器(包括Perplexity的Comet)的系统性挑战。意识到提示注入攻击难以根除的并非OpenAI一家。英国国家网络安全中心本月初警告称,针对生成式AI应用的提示注入攻击"或许永远无法完全遏制",这使网站面临数据泄露风险。该政府机构建议网络安全从业者着力降低提示注入的风险和影响,而非指望能完全"阻止"此类攻击。
对此OpenAI表示:"我们将提示注入视为一项长期的AI安全挑战,需要持续加强防御体系。"
面对这项西西弗斯式的任务,OpenAI的应对之策是什么?该公司建立了一套主动快速响应机制,并表示该机制在早期已显现潜力,能帮助在新型攻击策略"流入现实世界"前于内部率先发现。这与Anthropic、谷歌等竞争对手的策略并无本质差异:为抵御持续存在的提示攻击风险,必须建立分层防御体系并进行持续压力测试。例如谷歌近期的工作就聚焦于智能体系统的架构与策略层面控制。
但OpenAI的独特策略在于其"基于大语言模型的自动化攻击程序"。该程序本质上是一个经过强化学习训练的机器人,能够模拟黑客角色,寻找向AI智能体注入恶意指令的途径。该机器人在实际攻击前可进行模拟测试,模拟器能展示目标AI遭遇攻击时的思考过程与行为反应。机器人通过分析这些反馈,调整攻击方式并反复尝试。这种对目标AI内部推理机制的洞察是外部攻击者无法获取的,因此理论上OpenAI的机器人能比现实攻击者更快发现漏洞。
这是AI安全测试的常见战术:构建智能体来寻找边界案例,并通过模拟环境快速测试。"我们通过强化学习训练的攻击程序,能够诱导智能体执行需要数十(甚至数百)步操作的复杂长期有害流程,"OpenAI写道,"我们还发现了人类红队测试和外部报告中未曾出现过的新型攻击策略。"
在演示案例(部分示意图见上文)中,OpenAI展示了其自动化攻击程序如何将恶意邮件注入用户收件箱。当AI智能体后续扫描收件箱时,它遵循了邮件中的隐藏指令,没有起草外出自动回复,反而发送了辞职信。但据该公司表示,安全更新后,"智能体模式"已能成功检测到此次提示注入企图并向用户发出警告。
OpenAI表示,尽管彻底防范提示注入攻击极为困难,但公司正依托大规模测试和快速补丁周期,争取在真实攻击出现前加固系统。OpenAI发言人未透露Atlas安全更新是否已使成功注入攻击出现可量化的减少,但表示自产品发布前公司就持续与第三方合作强化Atlas的提示注入防护能力。网络安全公司Wiz首席安全研究员拉米·麦卡锡指出,强化学习是持续适应攻击者行为的方法之一,但这只是解决方案的一部分。
"衡量AI系统风险的实用方法是:自主性乘以访问权限,"麦卡锡告诉TechCrunch。
"智能体浏览器往往处于这个风险公式的挑战性区域:中等自主性结合极高访问权限,"麦卡锡分析道,"当前的许多建议都反映出这种权衡。限制登录访问权限主要降低暴露风险,而要求审核确认请求则约束了自主性。"
这两点正是OpenAI为用户降低风险提出的建议之一。发言人表示Atlas也经过训练,会在发送消息或进行支付前获取用户确认。OpenAI还建议用户给予智能体具体指令,而非直接提供收件箱访问权限并笼统告知'采取必要措施'。"过于宽泛的授权范围会让隐藏的恶意内容更容易影响智能体,即使已有防护措施,"OpenAI强调。
尽管OpenAI表示保护Atlas用户免受提示注入攻击是首要任务,麦卡锡仍对高风险浏览器的投入产出比持审慎态度。"对于大多数日常使用场景而言,智能体浏览器目前创造的价值尚不足以证明其承担的风险是合理的,"麦卡锡坦言,"考虑到它们能访问电子邮件、支付信息等敏感数据,风险确实很高——虽然这种高访问权限也正是其强大之处。这种平衡未来会演变,但现阶段风险与收益的权衡依然非常现实。"