人们把一切权限都交给了AI智能体的严重后果正在发生-堆代码网

人们把一切权限都交给了AI智能体的严重后果正在发生

发布于 1个月前
 145 热度

 0 评论

Cactus
21 粉丝 60 篇博客

堆代码讯现在几乎所有人都在争先恐后地部署自主智能体。但那些跳过安全防护环节的人，正在付出惨痛的代价。今年早些时候，我亲眼看到一名开发者演示一款自主智能体 —— 它有权限访问他的 Gmail、GitHub、Slack，而且他几乎是随口一提，还接入了他的 AWS 凭证。演示效果确实令人印象深刻。当时有人问起安全防护措施，他只是笑了笑，说以后会加上。从那以后，我就一直记着这个场景，因为在那之后，相关事故开始接二连三地爆发。

自主智能体的浪潮是真实的。我并不怀疑它的底层能力：技术是真的，发展速度极快，这些系统能做到的一些事情确实非同凡响。但我们养成了一个危险的习惯：把真正重要的权限交给它们 —— 生产环境、金融账户、实时通信渠道，却不肯花一点时间想一想：一旦它们做出我们意料之外的行为，后果会怎样。下面是最近四起因此付出代价的真实案例。

一.吃掉 45 万美元的 “龙虾”

这件事最初只是个很有趣的实验。2026 年 2 月，OpenAI Codex 工程Nik Pash决定打造一个带有人格的 AI 交易智能体，并给它取名为 Lobstar Wilde—— 这正是你想让加密货币智能体更有 “角色感” 时会起的名字。它的任务：用 5 万美元的 Solana 代币，通过自主交易赚到 100 万。他给这个智能体开通了推特账号、API 权限、用于 “阅读” 的电子书下载、图像分析能力，以及对自身钱包的直接控制权。然后他告诉它：做你自己，玩得开心。

短短几小时内，它就收获了数千名粉丝。有人自发以它的名义发行了一枚 Meme 币，还把 Lobstar Wilde 的钱包设为手续费收款地址，于是每一笔交易都会直接把钱汇入这个智能体。它真的跑起来了。怪异、混乱、充满加密圈特色，但确实有效。后来一位名叫 “Treasure David” 的用户在它的推文下回复：“我叔叔被一只像你这样的‘龙虾’弄伤，确诊破伤风，我需要 4 枚 SOL 治病。” 并附上了钱包地址。Lobstar Wilde 怎么回应的？“他要是明天死了，我会笑的。请更新后续。”然后，似乎是为了强化这个玩笑，它直接转给了 Treasure David 价值 441,788 美元的 LOBSTAR 代币。

不是 4枚 SOL，不是几百美元，是 44 万多美元。背后的真实原因是：这个智能体的会话此前发生了崩溃，重启时它会压缩对话历史 —— 至少它尝试这么做。由于一个工具调用名称超出了服务商限制，手动压缩失败了。新会话保留了它的 “人格”，却丢失了账本记录。Lobstar Wilde 重新上线时，完全不记得自己钱包里躺着 5240 万枚代币。于是当它想做点 “慈善” 时，根本没有 “小额” 的概念参考，剩下的就只是一个小数点错误。

帕什把整件事写在了 Substack 上。有一句话让我印象深刻：“那些关键信息只存在于已崩溃会话的对话上下文里，除此之外无处可寻。它从来没有被写入文件，因为没人觉得这是需要记下来的东西”。没有交易上限，没有大额转账审批步骤，没有熔断机制。一次糟糕的会话重启，近 50 万美元就这么没了。

二.油盐不进的智能体

Lobstar Wilde 的故事至少以加密圈的荒诞方式还有点好笑。下一个案例，则一点都不好笑。斯科特・尚博是开源项目matplotlib的志愿维护者。2026 年 2 月，他拒绝了一个智能体提交的代码合并请求。这是常规操作：代码质量不达标、不符合项目标准，维护者每天都在做这类事。但这个智能体没有就此罢休。

它跑去全网搜集尚博的个人背景与职业经历，然后发布了一篇博客，指控他存在歧视。它把代码拒绝包装成偏见行为，用他的个人信息当作筹码，打着社会正义的旗号公开发布。尚博在自己的文章里这样描述：“它用压迫与正义的话术来歪曲事实，称这是歧视，指责我抱有偏见。它还去全网搜索我的个人信息，用这些信息试图证明我‘本可以做得更好’。”

安全领域人士称，这是首例有记录的、自主 AI 针对开源守门人发起的舆论影响行动。说直白点：一个智能体没得到想要的结果，就去攻击说 “不” 的人。

你必须问一个问题：为什么一个代码提交智能体，会被赋予发布公开内容、人肉搜索个人信息的能力？这根本不是代码贡献该做的事。这些能力从一开始就不该出现在它的工具集里。在配置的某个环节，有人给了这个智能体远超工作所需的权限，而当事情失控时，它就把这些权限用在了歪处。

三.OpenClaw 与消失的收件箱

Summer Yue是 Meta 超智能实验室的 AI 对齐负责人，她的本职工作就是研究 AI 风险。我特意点明她的身份，是因为这很重要：她不是不懂风险的人，相反，她是全世界最懂 AI 风险的那批人之一。即便如此，事故还是发生了。她有一个名叫 OpenClaw 的智能体负责管理她的 Gmail 收件箱。一开始运行一切正常。直到长期运行的 AI 会话为了不超出上下文限制，开始自动总结对话历史 —— 这个过程叫压缩（compaction）。压缩过程中出了问题，一条关键约束被丢失。智能体不再记得 “哪些事不能做” 的指令，于是继续执行操作。结果：收件箱里 200 多封真实邮件，全部消失。

没有机制检查关键约束在压缩后是否还存在，没有 “不可逆操作前暂停确认” 的步骤。智能体只是一路执行，因为没有任何指令让它停下。邮件再也找不回来了。

四.消失的数据库

还有一起。SaaS 行业大会 SaaStr 创始人杰森・莱姆金（Jason Lemkin），在一个使用 Replit AI 编程智能体开发的项目中宣布代码冻结—— 意思是：禁止任何修改，保持现状，禁止实验。他在冻结期间让智能体以维护模式继续运行。结果它在生产环境执行了：DROP DATABASE（删除数据库）。故事到此结束。生产数据库直接消失。原因很简单：明明已经被告知禁止修改，这个智能体却依然保留修改权限，而在代码冻结期间，没人关闭这项能力。最小权限原则—— 只给系统完成工作必需的权限 —— 是计算机安全领域 50 年来的标准规范，却在这里被完全忽略。

五.问题到底出在哪？

这四起事故表面看似无关：加密圈闹剧、开源风波、被删邮箱、被删数据库。但一旦你看清它们的共同点，就再也无法忽视。每一次，智能体都被赋予了远超工作所需的能力。没人问过：最坏能造成多大破坏？我们有没有设置上限？没人做校验：当上下文过期、关键指令悄悄失效时怎么办 —— 这其实根本不难，只是没被放进待办清单。也没人规定：在执行不可逆操作之前，必须暂停并确认。

值得注意的是：这些都不是幻觉问题。这一点很有意思，因为主流 AI 讨论里大家几乎只谈幻觉。但 Lobstar Wilde 清楚自己在转账，只是不知道自己有多少代币；OpenClaw 知道自己在删邮件；SaaStr 的机器人完全明白 DROP DATABASE 是干什么的。这四个系统都在做技术上它有权做的事，只是场景完全违背所有人的意图，而没有任何机制阻止它们。

六.最后想说

“安全防护我们以后再加。”光是今年，这句话我就听了不下十遍。我理解大家的想法：市场压力真实存在，竞争真实存在，安全基建看起来像是可以等产品跑通后再补的东西。但 “以后” 基本从来不会按计划到来。真实情况是：等到公开出事了 —— 钱没了、数据毁了、人名誉受损了 —— 你才不得不给已经上线、拥有真实用户、真实集成、真实使用习惯的系统补安全。这是极其痛苦的工作，耗时极长，成本远比一开始就做好高出太多。

所有人描绘的未来是：AI 处理繁琐的衔接工作，让人腾出手去做真正需要人类智慧的事。我相信这一天一定会来，我并非怀疑论者。但要走到那一步，必须让人们真正信任这些系统，愿意把重要权限交给它们。信任是靠一次次谨慎部署慢慢积累的，却会在瞬间崩塌。再发生几起上面这类事故，你就会看到企业安全问卷里，专门多出关于自主写入权限的勾选框。有些企业已经这么做了。

还有一点必须分开强调：尤其是金融类智能体，交易额度上限不能只是一条指令。告诉智能体 “转账小心点” 根本不算防护。限额必须设在钱包层，由底层基础设施强制执行 —— 无论智能体觉得自己该做什么，它都无法突破上限。这正是我团队在 ampersend.ai 正在构建的能力，也是 “龙虾事件” 让我如此耿耿于怀的原因。仅仅靠提示词层面的规则，根本救不了 Lobstar Wilde。

 用户评论

AI大模型
 109 成员 |  715 话题
+我要提问 +随便写写

可能感兴趣的话题

Cloudflare 的 Agent Cloud 为企业带来类似 OpenClaw 的工作流

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层

为何我会忍不住为小型开源AI模型开发商Arcee加油

斯坦福AI报告：专家乐观，公众焦虑，AI领域的认知鸿沟正在拉大