OpenAI发布新论文：如何防止超级智能走上 “失控” 的道路-duidaima 堆代码

OpenAI发布新论文：如何防止超级智能走上 “失控” 的道路

发布于 2个月前
 530 热度

 0 评论

受阻的自由
0 粉丝 30 篇博客

OpenAI 近日公布了其超级对齐小组的初步成果。这是公司内部的一项特别项目，旨在防止所谓的超级智能（一种理论上的未来计算机，能够超越人类智慧）走上 “失控” 的道路。

成果介绍：https://openai.com/blog/introducing-superalignment

这次的公告与 OpenAI 往常的风格不同，并没有宣布什么重大突破。团队在一篇不起眼的研究论文中介绍了一种新技术，这项技术能让一个实力较弱的 LLM 来监督一个更强大的模型，这可能是我们向着解决如何让人类监督那些超越人类智能的机器迈出的一小步。

论文链接：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

就在 OpenAI 的 CEO Sam Altman 因一场政变被其监管委员会解雇、并在三天后重返职位不到一个月后，这家公司传递出了一个明确的信息：一切回归常态。但 OpenAI 的常态，并不像其他公司那样平凡。许多研究人员仍对机器能否真正达到甚至超越人类智能持怀疑态度。然而，OpenAI 的团队坚信机器最终会超越人类。超级对齐团队的研究员 Leopold Aschenbrenner 表示：“过去几年里，AI 的发展速度简直惊人。我们一直在不断突破各种标准，这种进展还在持续。”

对于 Aschenbrenner 和 OpenAI 的其他成员而言，具备人类智能水平的模型即将成为现实。“但这仅仅是一个开始，” 他说。“我们即将创造出超越人类的模型，这些模型将比我们更加智能。这将带来一系列全新的技术挑战。”

今年七月，Sutskever 和 OpenAI 的同事 Jan Leike 成立了超级对齐团队，专门应对这些挑战。“我做这件事是出于个人利益，”Sutskever 在九月接受 MIT Technology Review 采访时说。“很明显，任何人开发的超级智能都不能失控，这毋庸置疑。”

在外界猜测 Altman 被解雇是因为他对公司 AI 安全策略的轻率处理的同时，Sutskever 领导的超级对齐团队成为了背后的焦点。许多人都在关注这个团队到底在做什么。

这个团队试图解决的问题是如何控制或者 “对齐” 那些比我们智能得多的假想未来模型，也就是所谓的超人类模型。所谓对齐，就是确保模型按照我们的意愿行事，不做我们不想让它做的事。超级对齐则是把这一理念应用到超人类模型上。

目前用来对已有模型进行对齐的一种普遍技术称为通过人类反馈的强化学习。简单来说，就是人类测试者对模型的回答进行评分，对他们认为合适的行为点赞，对不合适的行为点踩。这些反馈随后用于训练模型，使其只产生人类测试者偏好的那种回应。这种技术是 ChatGPT 如此迷人的重要原因之一。

但问题是，这种方法需要人类首先能判断什么行为是好的，什么行为是不好的。但对于超人类模型来说，可能会出现一种情况 —— 它们做出的行为超出了人类测试者的理解范畴，因此无法进行有效评分。（Sutskever 告诉我们，这些模型甚至可能试图向人类隐藏它们的真实行为。）

研究人员面临的一个难题是，目前还不存在超人类机器，因此难以进行研究。为此，他们找到了替代方案。他们没有直接研究人类如何监督超人类机器，而是研究了 GPT-2（OpenAI 五年前发布的模型）如何监督 GPT-4。超级对齐团队的研究员 Collin Burns 解释说：“如果你能做到这一点，可能就意味着可以用类似的技术让人类监督超人类模型。”

团队对 GPT-2 进行了训练，使其能够执行包括一系列国际象棋难题和 22 个常见自然语言处理测试（包括推理、情感分析等）的不同任务。他们利用 GPT-2 在这些测试和难题上的反应来训练 GPT-4 完成相同的任务。这就像是一个高中生在学习一个小学生的方法来完成任务。关键是在不明显影响 GPT-4 性能的情况下完成这一过程。

实验结果好坏参半。团队比较了 GPT-4 在接受 GPT-2 最佳猜测训练和接受正确答案训练之间的性能差距。他们发现，GPT-4 在经过 GPT-2 训练后，在语言任务上的表现比 GPT-2 本身提高了 20% 到 70%，但在国际象棋难题上表现不佳。

团队成员 Pavel Izmailov 评论道，GPT-4 能够超越其 “老师” 本身就是一个令人印象深刻的成就：“这是一个非常惊人且积极的结果。” 但他也指出，GPT-4 远未达到其单独工作时的水平。他们得出结论，这种方法虽然充满希望，但仍需进一步完善。

“这是一个有趣的点子，” 德国斯图加特大学专注于对齐研究的 AI 研究员 Thilo Hagendorff 评论说。但他认为 GPT-2 可能不够聪明，不能成为一个好的 “老师”。“GPT-2 在处理稍微复杂或需要推理的任务时，常常给出没有意义的回答，” 他说。Hagendorff 对于如果使用 GPT-3 会发生什么感到好奇。

他还指出，这种方法并没有解决 Sutskever 提出的那种假设场景，即超级智能隐藏其真实行为，假装与人类对齐，实际上并非如此。“未来的超人类模型可能会展现出研究者们未知的突发能力，”Hagendorff 表示。“在这些情况下，如何实现对齐？”

不过，他说，指出缺点总是容易的。他对于看到 OpenAI 从理论推测转向实际实验感到高兴：“我为 OpenAI 的努力鼓掌。”

OpenAI 现在希望吸引更多人加入这一事业。在发布这次研究更新的同时，公司宣布了一个新的 1000 万美元基金，计划用来支持从事超级对齐研究的人员。他们将为大学实验室、非营利组织和个人研究者提供高达 200 万美元的资金支持，并为研究生提供 15 万美元的一年期奖学金。“我们对此感到非常兴奋，”Aschenbrenner 说。“我们真的相信新的研究者能够做出重大贡献。”
原文链接：https://www.technologyreview.com/2023/12/14/1085344/openai-super-alignment-rogue-agi-gpt-4/

 用户评论

AI大模型
 101 成员 |  663 话题
+我要提问 +随便写写

可能感兴趣的话题

警惕AI带来的认知退化

被 OpenAI 点名后，智谱发布新开源模型

Claude-code 是否真的可以投入生产？

Cursor为何暂停了中国大陆地区AI模型的供应？