• Meta推出类似Copilot 的生成式 AI 编程工具
  • 发布于 2个月前
  • 374 热度
    0 评论

Meta 宣布已经开发出了一个类似于 GitHub 的 Copilot 的生成式 AI 编程工具。Meta 在一次专注于其 AI 基础设施项目的活动中发布了这一消息,该项目包括 Meta 正在开发的用于加速生成式 AI 模型训练的定制芯片。这款名为 CodeCompose 的编程工具还未对外公开 —— 至少现在还未公开。但是,Meta 表示,其内部团队正在使用它在类似 VS Code 的集成开发环境中输入代码时获取 Python 和其他语言的代码建议。


“这个底层模型是基于我们从 Meta 公开研究中调整优化,以适应我们的内部应用场景和代码库而构建的。” Meta 软件工程师 Michael Bolin 在预录的视频中说道。“在产品层面,我们可以将 CodeCompose 集成到开发者或数据科学家编写代码的任何平台上。”


在 Meta 训练的若干个 CodeCompose 模型中,最大的一个具有 67 亿个参数,这一数值略多于 Copilot 所基于的模型参数的一半。参数是模型从历史训练数据中学习的部分,基本上决定了模型在处理某个问题,如生成文本时的能力。


CodeCompose 在 Meta 自家的代码上进行了微调,包括用一种由 Meta 开发的编程语言 Hack 编写的内部库和框架,因此它能够在提供编程建议时包含这些内容。此外,其基础训练数据集已经过滤掉了低质量的编程习惯和错误,例如过时的 API,以降低模型推荐有问题的代码片段的可能性。

在实际使用中,用户在键入时,CodeCompose 会提供诸如注释和导入语句的建议。该系统能够完成单行或多行代码的自动填充,甚至可选地填充大块的代码。


“CodeCompose 可以利用周边的代码来提供更好的建议,” Bolin 继续说道。“它也能使用代码注释作为产生代码的参考信号。”
Meta 声称,每周有数千名员工接受 CodeCompose 的建议,接受率超过了 20%。但是,公司并没有对有关自动生成代码的 AI 的争议问题发表看法。

微软、GitHub 以及 OpenAI 正在面临一场集体诉讼,该诉讼指责他们允许 Copilot 在未经授权的情况下复制许可代码,这侵犯了版权法。撇开责任不谈,一些法律专家指出,像 Copilot 这样的 AI 可能会给公司带来风险,例如他们可能在不知情的情况下将工具提供的受版权保护的建议纳入他们的生产软件。


目前还不清楚 CodeCompose 是否也在受版权保护或有许可证的代码上接受过训练 —— 即使是不经意间的。当被征求发表意见时,Meta 一位发言人说:

“CodeCompose 是基于 Meta 的 AI 研究部门发布的 InCoder 进行训练的。在详述 InCoder 的论文中,我们指出,为了训练 InCoder,‘我们收集了来自 GitHub 和 GitLab 的公开代码,这些代码拥有宽松、非 copyleft 的开源许可,以及 StackOverflow 的问题、答案和评论等。’ 对于 CodeCompose,我们额外进行的训练只针对 Meta 的内部代码。”


生成式编程工具也可能导入不安全的代码。根据斯坦福大学最近的一项研究,使用生成代码的 AI 系统的软件工程师在他们开发的应用程序中更容易造成安全漏洞。尽管该研究并未特别针对 CodeCompose,但同样的原理也适用于使用它的开发者。


Bolin 强调,开发人员无需遵循 CodeCompose 的建议,在创建模型时,安全性是一个 “主要考虑的因素”。他补充说:“到现在我们对 CodeCompose 的进展感到非常激动,我们相信,将这项工作引入内部可以为我们的开发人员提供最好的服务。”


分布式实验室最近在策划一期Kubernetes进阶线上课程,欢迎感兴趣的同学扫码进群,一起聊聊你的需求和关注点。
用户评论