谷歌研究员破解了ChatGPT-duidaima 堆代码

谷歌研究员破解了ChatGPT

发布于 2个月前
 542 热度

 0 评论

月上眉梢
1 粉丝 27 篇博客

就在 ChatGPT 发布一周年之际，谷歌研究人员发布了一篇论文，展示了破解 OpenAI 这个引人注目的技术有多么容易。
论文链接：https://arxiv.org/abs/2311.17035

这篇于周二发布的论文，向我们揭示了处于 AI 研究前沿的科学家们 —— 对于某些人来说这是一份薪资及其丰厚的工作 —— 如何实时测试流行产品的极限。谷歌及其 AI 实验室 DeepMind（该论文的作者大多在这儿工作）正努力在竞争对手如 OpenAI 和 Meta 之前，将科学成就转化为可赚钱且实用的产品。

该研究聚焦于 “提取”，这是一种 “对抗性” 尝试，用以推测可能被用于训练某个 AI 工具的数据。研究者们写道，AI 模型能 “记住其训练数据集中的示例，这可能使攻击者能够提取（潜在的私人）信息”。隐私是一个关键问题：如果 AI 模型最终被用于处理个人信息，那么它们的训练数据泄露可能会暴露银行登录信息、家庭地址等敏感信息。

在宣布这篇论文的博客文章中，谷歌团队补充说，ChatGPT 被设计为不会输出大量训练数据。但是，通过开发一种攻击手段，我们可以做到这一点。在 AI 领域，“对齐” 指的是工程师试图指导技术行为的努力。研究人员还指出，与之前在生产阶段就屈服于提取尝试的 AI 模型不同，ChatGPT 是一款已经对公众市场发布的产品。

这种有效的 “攻击” 方式其实非常简单，研究者们在他们的博客文章中甚至称其为 “傻瓜”：他们仅仅让 ChatGPT 重复不断地输出 “poem” 这个词。

他们发现，经过数百次重复 “poem” 后，这款聊天机器人最终会开始 “偏离” 它的标准对话模式，开始产生没有意义的词语。当研究人员重复使用这一技巧并审视聊天机器人的输出（在无数个 “poem” 之后），他们开始发现输出内容直接来自于 ChatGPT 的训练数据。他们在世界上最著名的 AI 聊天机器人 “ChatGPT-3.5-turbo” 的廉价版本上找到了 “提取” 的方法。

研究人员反复进行类似的查询后，仅用 200 美元就获得了超过 10,000 个示例，其中 ChatGPT 输出了它记忆的训练数据，他们在论文中写道。这包括小说中的完整段落、数十人的个人信息、研究论文的片段，以及来自约会网站的 “不宜公开内容”。

首次报道这篇论文的 404 Media 找到了其中的几段内容，包括在 CNN 网站、Goodreads、粉丝页面、博客，甚至评论区中都能找到。

研究者们在他们的博客文章中写道：“据我们所知，在这篇论文发表之前，从未有人注意到 ChatGPT 以如此高的频率泄露训练数据。因此，令人担忧的是，语言模型可能隐藏着这类潜在的漏洞。”

他们还补充道：“同样令人担忧的是，很难区分（a）真正安全和（b）看似安全但实际并非如此之间的差异。” 研究团队除了来自谷歌，还包括来自加州大学伯克利分校、华盛顿大学、康奈尔大学、卡内基梅隆大学和苏黎世联邦理工学院的代表。

研究人员在论文中写道，他们在 8 月 30 日通知了 OpenAI 关于 ChatGPT 的漏洞，给这家初创公司时间在他们公开发现之前解决这一问题。但在周四下午，SFGATE 成功复制了这一问题：当要求 ChatGPT 只重复 “成熟” 这个词时，这个公共且免费的版本最终开始输出其他文本，包括正确归属于理查德·巴赫和托妮·莫里森的引文。

OpenAI 没有立即回应 SFGATE 的评论请求。在此之前的周三，该公司正式迎回了 Sam Altman，之前一段时间这家初创公司经历了一场令人震惊的动荡。

 用户评论

IT那些事
 325 成员 |  3418 话题
+我要提问 +随便写写

可能感兴趣的话题

@platformatic/python-node库：允许在 Node.js 进程内直接运行Python ASGI

Apache Kafka背后的母公司决定把自己给卖了

React基金会成立-React和React Native将从Meta迁移到新的React基金会

超越RAG，DRAG让LLM准确率飙升45.5%，问题越复杂能力越强