• 谷歌研究员破解了ChatGPT
  • 发布于 2个月前
  • 175 热度
    0 评论
就在 ChatGPT 发布一周年之际,谷歌研究人员发布了一篇论文,展示了破解 OpenAI 这个引人注目的技术有多么容易。
论文链接:https://arxiv.org/abs/2311.17035

这篇于周二发布的论文,向我们揭示了处于 AI 研究前沿的科学家们 —— 对于某些人来说这是一份薪资及其丰厚的工作 —— 如何实时测试流行产品的极限。谷歌及其 AI 实验室 DeepMind(该论文的作者大多在这儿工作)正努力在竞争对手如 OpenAI 和 Meta 之前,将科学成就转化为可赚钱且实用的产品。

该研究聚焦于 “提取”,这是一种 “对抗性” 尝试,用以推测可能被用于训练某个 AI 工具的数据。研究者们写道,AI 模型能 “记住其训练数据集中的示例,这可能使攻击者能够提取(潜在的私人)信息”。隐私是一个关键问题:如果 AI 模型最终被用于处理个人信息,那么它们的训练数据泄露可能会暴露银行登录信息、家庭地址等敏感信息。

在宣布这篇论文的博客文章中,谷歌团队补充说,ChatGPT 被设计为不会输出大量训练数据。但是,通过开发一种攻击手段,我们可以做到这一点。在 AI 领域,“对齐” 指的是工程师试图指导技术行为的努力。研究人员还指出,与之前在生产阶段就屈服于提取尝试的 AI 模型不同,ChatGPT 是一款已经对公众市场发布的产品。

这种有效的 “攻击” 方式其实非常简单,研究者们在他们的博客文章中甚至称其为 “傻瓜”:他们仅仅让 ChatGPT 重复不断地输出 “poem” 这个词。

他们发现,经过数百次重复 “poem” 后,这款聊天机器人最终会开始 “偏离” 它的标准对话模式,开始产生没有意义的词语。当研究人员重复使用这一技巧并审视聊天机器人的输出(在无数个 “poem” 之后),他们开始发现输出内容直接来自于 ChatGPT 的训练数据。他们在世界上最著名的 AI 聊天机器人 “ChatGPT-3.5-turbo” 的廉价版本上找到了 “提取” 的方法。

研究人员反复进行类似的查询后,仅用 200 美元就获得了超过 10,000 个示例,其中 ChatGPT 输出了它记忆的训练数据,他们在论文中写道。这包括小说中的完整段落、数十人的个人信息、研究论文的片段,以及来自约会网站的 “不宜公开内容”。

首次报道这篇论文的 404 Media 找到了其中的几段内容,包括在 CNN 网站、Goodreads、粉丝页面、博客,甚至评论区中都能找到。

研究者们在他们的博客文章中写道:“据我们所知,在这篇论文发表之前,从未有人注意到 ChatGPT 以如此高的频率泄露训练数据。因此,令人担忧的是,语言模型可能隐藏着这类潜在的漏洞。”

他们还补充道:“同样令人担忧的是,很难区分(a)真正安全和(b)看似安全但实际并非如此之间的差异。” 研究团队除了来自谷歌,还包括来自加州大学伯克利分校、华盛顿大学、康奈尔大学、卡内基梅隆大学和苏黎世联邦理工学院的代表。

研究人员在论文中写道,他们在 8 月 30 日通知了 OpenAI 关于 ChatGPT 的漏洞,给这家初创公司时间在他们公开发现之前解决这一问题。但在周四下午,SFGATE 成功复制了这一问题:当要求 ChatGPT 只重复 “成熟” 这个词时,这个公共且免费的版本最终开始输出其他文本,包括正确归属于理查德·巴赫和托妮·莫里森的引文。

OpenAI 没有立即回应 SFGATE 的评论请求。在此之前的周三,该公司正式迎回了 Sam Altman,之前一段时间这家初创公司经历了一场令人震惊的动荡。
用户评论