Meta 宣布已经开发出了一个类似于 GitHub 的 Copilot 的生成式 AI 编程工具。Meta 在一次专注于其 AI 基础设施项目的活动中发布了这一消息,该项目包括 Meta 正在开发的用于加速生成式 AI 模型训练的定制芯片。这款名为 CodeCompose 的编程工具还未对外公开 —— 至少现在还未公开。但是,Meta 表示,其内部团队正在使用它在类似 VS Code 的集成开发环境中输入代码时获取 Python 和其他语言的代码建议。
在 Meta 训练的若干个 CodeCompose 模型中,最大的一个具有 67 亿个参数,这一数值略多于 Copilot 所基于的模型参数的一半。参数是模型从历史训练数据中学习的部分,基本上决定了模型在处理某个问题,如生成文本时的能力。
在实际使用中,用户在键入时,CodeCompose 会提供诸如注释和导入语句的建议。该系统能够完成单行或多行代码的自动填充,甚至可选地填充大块的代码。
微软、GitHub 以及 OpenAI 正在面临一场集体诉讼,该诉讼指责他们允许 Copilot 在未经授权的情况下复制许可代码,这侵犯了版权法。撇开责任不谈,一些法律专家指出,像 Copilot 这样的 AI 可能会给公司带来风险,例如他们可能在不知情的情况下将工具提供的受版权保护的建议纳入他们的生产软件。
“CodeCompose 是基于 Meta 的 AI 研究部门发布的 InCoder 进行训练的。在详述 InCoder 的论文中,我们指出,为了训练 InCoder,‘我们收集了来自 GitHub 和 GitLab 的公开代码,这些代码拥有宽松、非 copyleft 的开源许可,以及 StackOverflow 的问题、答案和评论等。’ 对于 CodeCompose,我们额外进行的训练只针对 Meta 的内部代码。”
生成式编程工具也可能导入不安全的代码。根据斯坦福大学最近的一项研究,使用生成代码的 AI 系统的软件工程师在他们开发的应用程序中更容易造成安全漏洞。尽管该研究并未特别针对 CodeCompose,但同样的原理也适用于使用它的开发者。
Bolin 强调,开发人员无需遵循 CodeCompose 的建议,在创建模型时,安全性是一个 “主要考虑的因素”。他补充说:“到现在我们对 CodeCompose 的进展感到非常激动,我们相信,将这项工作引入内部可以为我们的开发人员提供最好的服务。”