• Meta的Llama 2真是开源项目吗?NO!
  • 发布于 2个月前
  • 201 热度
    0 评论
  • 雾月
  • 0 粉丝 23 篇博客
  •   
AI 的未来发展,似乎不太可能走上我们所熟悉的开源技术路线。相反,我们得支持新的开放方法,并探索这种方法在瞬息万变的现实世界中将开辟出怎样的未来前景。

7 月 19 日,大语言模型(LLM)Llama 2 公布的 “开放创新” 名号在业界引起极大关注,而我们这帮开源支持派已经为此期待了好长时间。计算机科学皇家学会院士 Wendy Hall 教授认为,这 “相当于向外界公布了制造炸弹的配方模板。” 虽然我对 Hall 教授充满敬意,但这匹技术烈马早在几十年前就已经脱缰,所以现在才来担心实在有点多余。

好在如今的世界对技术更加包容,而 Hall 教授的评论显然表明她的思维仍停留在已经逝去的那个时代。

互联网就是 25 年多前用开源软件协作构建而成的技术,现在让我们运用这项成果,了解关于 Hall 教授言论的更多细节。作为人类文明史上的一大 “奇观”,互联网为整个社会创造了一个难以想象的世界,为所有人带来便利服务和数字环境。而搜索 Wendy Hall 教授的 “炸弹模板” 一词,屏幕上就会跳出一大堆内容,包括她那显然不太明智的评论原文。毫无疑问,这些内容在负责监控互联网、保护网民安全的人们面前也是公开的。

不只是 Hall 教授,技术精英群体曾多次表现出对开源软件的无知。就在 7 月上旬,OpenUK 的最新经济分析显示,英国 27% 的科技产业(总增加值)来自开源软件协作企业,报告还解释了为什么这些全球协作企业通常会跟美国的公司合作 —— 因为美国既是英国科技产品的主要销售市场,也拥有着规模巨大、价值可观、潜力无限但又经常被英国忽视的跨国劳动力资源。

开源协作关注的往往是技术含量很高、但却相当沉闷的中间件,这些往往被视为数字世界中的传送带和管道修理工具。中间件相当于技术这块美味批萨的饼底,我们把各种技术元素摆放在其上 —— 互联网、云计算、区块链,当然还包括 AI。每当谈起技术时,人们关注的大多都是饼底上面的馅料。但如果去年开源这块 “饼底”,剩下的就只有一团乱七八糟的食材。

其实那些技术大牛们不了解开源软件的价值和成就也无所谓,但他们明显对开源软件的基本原则和运作机制都一无所知。

开源软件通过许可证进行免费分发,代码版权的持有者允许其他人根据许可条款使用软件成果。开源意味着版权持有者会对外开放人类能够理解的代码版本(也就是源代码),遵循开源软件倡议(OSI)批准的许可证与他人共享,同时满足开放源码定义(OSD)的 10 项基本原则。定义中明显指出,任何人都可以将开源代码应用于任何目的。

就是说无论人们怎么使用开源软件,只要行为没有明确触犯法律(法律的优先级当然要高于许可证),那么许可条款就不会加以限制。开源许可证不会做模棱两可的道德或伦理判断,开源的本质就是以这种方式促进协作、透明度和社区信任。

Llama 2 的 “开源”
Meta 公司发布的 Llama 2 并不是开源项目。Llama 社区许可证没有、也不会得到开源软件倡议的批准,因为其中条款明显不符合开放源码定义的要求

开源软件倡议也承认 AI 的开放政策需要做点不同于以往的设计,所以目前正通过磋商为新的 “开源 AI” 寻找定义。这项磋商将在今年年内持续进行,最早也要到年底才能有点结果。但也有厂商已经在探索的道路上走了很远,比如 Google DeepMind 多年来一直在开源 AI 成果。在 GitHub 上随便一搜,就能看到 DeepMind 开源的项目量已经是仅次于英国小型 AI 厂商 Significant Gravitas 的全球第二。

与此同时,各国政府也在努力研究未来 AI 开放所应遵循的限制政策。

7 月 21 日,美国政府宣布包括亚马逊、Anthropic、谷歌、Inflection、微软、Meta 和 OpenAI 在内的多家重量级厂商已经签署 8 条 “保护性” 自愿措施,旨在推动 AI 技术 “向着安全、可靠和透明的方向发展。开发这些新兴技术的公司有责任保障其产品安全。”

这些承诺源自美国同英国、日本等 20 个国家的协商,8 条措施具体如下:
1.公开报告其 AI 系统的能力、局限性以及适用 / 不适用的领域 —— 即明确安全风险与社会风险。
2.优先研究 AI 系统可能带来的社会风险,包括避免有害的偏见 / 歧视并保护隐私。
3.开发强大的技术机制(例如水印系统),确保用户知晓内容是否 / 何时由 AI 生成。
4.在整个行业以及政府、民间社会和学术界之间,共享关于 AI 风险管理的信息。

5.在 AI 系统正式发布前,对其进行内部 / 外部安全测试。


投资网络安全与内部威胁防护措施,借此保护专有 / 未发布的模型权重 —— 请注意,应仅在主观同意且考虑安全风险的前提下发布模型权重。
促进第三方发现并上报其 AI 系统中的漏洞(风险),并在 AI 系统发布并启用后,使用强大的报告机制快速发现并修复这些漏洞(风险)。
开发和部署先进的 AI 系统(即 “前沿模型”),以帮助解决社会面临的关键挑战。

欧盟委员会数字化副主席 Margrethe Vesteger 在 6 月 19 日发布了一条附有与 Mark Zuckerberg 会面照片的推文,称 “AI 行为准则正在实施当中。今天与 Zuckerberg/Meta 的对话重点,在于如何减轻开源环境中的相关风险。”

结合美国做出的开源承诺与 Vesteger 的对话内容以及我们看到的一系列目前尚未公开的要求条款,Llama 2 发布时附带的可接受使用政策,明确约束用户 “不得从事有害活动”。而这很可能就是为了顺应欧盟委员会后续对一切 AI 产品提出的基本要求。

目前关于 Llama 2 许可和开源问题的大部分讨论,实际上都是在转移用户们的注意力,因为可接受使用政策(AUP)才是决定 AI 发展走向的核心。一旦可接受使用政策和限制条款被纳入法律,将意味着 AI 跟我们熟知的开源软件根本就不是一回事,而将拥有一种新的开放形式。Meta 的 Llama 2 官方网站将此称为 “开放式创新”。

正因为如此,代表开放技术(其约束范围比开源软件更为广泛)的 OpenUK 组织才支持 Meta 的开放式创新思路,并签署了 Llama 2 模型的支持声明,强调 “我们支持对 AI 采取开放式创新方法。负责任且开放的创新将允许每一个人参与到 AI 开发的过程中来,为这些技术成果带来可见性、审查和信任。此次开放 Llama 模型,将使所有人都能从这项技术中获益。”

但对开源社区中的某些成员来说,Llama 2 版本中的这些限制却令他们感到沮丧。他们对许可证中的商用限制和其他条款感到不满,认为这些约束可能阻碍已完成工作及以此为基础开发的后续产品的自由流动。而这种自由流动的能力,正是开源运动中的重要组成部分。

也就是说,我们熟悉的开源方法似乎无法在未来的 AI 当中发挥作用。而我们唯一能做的,就是先支持一套开放方案,再结合不断变化的背景探索如何对现有方案做修改和调整。

Meta 的商业限制确实让开源社区颇为不爽。但即使没有这些限制,现实中的可接受使用政策也绝不会彻底消失。如果现状不改变,那么 AI 模型永远不会成为我们所熟知的开源软件。

企业中的技术部门大多以封闭方式做开发,建立起保护专有知识产权的围墙花园。这种闭源原则成就了众多科技巨头,允许他们架设护城河来对抗竞争对手。这种方式创造出的环境也塑造了现代社会的面貌,其中用于赋能的知识和支撑数字生活的很多基础性工具,始终由少数人掌握和控制。

但在 AI 时代下,我们绝不能允许类似的问题再次发生。开放技术可以通过 AI 大众化普及重塑这种平衡,解决我们之前犯过的错误。毕竟 AI 已经成为这个时代下最重要的技术领域,它不该在决定人类命运未来的关键阶段落入少数人手中。

对大语言模型的灵活使用,让市场后起之秀、小企业和掌握技能的个人保住一份参与创新的资格。而对 AI 的开放将为技术大众化铺平道路,以更高的透明度促进各方信任。闭源才是恶意人士为非作歹的 “保护伞”,技术开放后对此类行为的监督则会成为广大受众的集体责任。总而言之,开放式创新应该有助于增强对 AI 的集体信任。

Zuckerberg 和 Meta 首席 AI 科学家 Yan Le Cun 在帖子中将 Llama 2 称为 “开源” 明显有误。但我个人相信这只是他们懒得去查证什么是真正的开源定义,并不属于存心误导或者 “伪装开源” 的主观故意。

现实情况理,Llama 2 的发布遵循的是 “开放式创新”,而这也许是我们目前在 “AI 开放” 方面能够选择的最好的道路(希望很快能有数据支持这个结论)。这条曲线救国的道路有望消解政府和监管机构祭起的行为准则、可接受使用政策和类似限制,确保能在这些方面证明合理性的开发者发布自己的成果。

毕竟与其固守号称不受任何限制、但却永远无法与大众见面的所谓 “真开源” 软件,倒不如先做一点让步。所以在我看来,开源社区的批评者们倒不用急着跳脚,深刻理解崇高理想与现实妥协之间的统一性、先想办法找条能走的路也许更加务实。
用户评论