• Zuckerberg访谈录:AI大模型开源其实也是件危险的事情
  • 发布于 1周前
  • 52 热度
    0 评论
Meta CEO Mark Zuckerberg 在 Meta 推出最强开源 LLM Llama 3 当天接受了知名科技播客主持人 Dwarkesh Patel 的专访。

在这次播客中,Mark Zuckerberg 详细讨论了 Meta 推出的最新 AI 模型 Llama-3,其特点包括开源访问、集成实时知识查询等,为开发者社区提供强大的技术支持。他提到,Llama-3 除了强调编码训练外,还具备更精准地回答问题和逻辑推理的能力。Zuckerberg 还反思了自己在 Meta 的决策历程,尤其是关于重资产投入的前瞻性与应对市场质疑。他深入探讨了 AI 的未来发展方向,包括 AI 在多模态交互、情感理解和推理方面的应用,认为这些进展将极大地提升人机交互质量。

此外,Zuckerberg 讨论了开源技术的重要性及其带来的长期影响,认为开源有助于提升技术的普及和创新。他提出,Meta 会考虑在适当的时候,根据模型的安全性和实用性,决定是否开源。整个对话不仅展示了 Meta 在技术前沿的努力,也反映了 Zuckerberg 对于公司战略、社会责任及技术伦理的深思熟虑。

我们一起来看看博客具体内容。

一.Llama-3
Dwarkesh Patel:Mark,欢迎来到我的播客节目。
Mark Zuckerberg:谢谢你邀请我,我非常喜欢你的节目。

Dwarkesh Patel:听你这么说我很开心。我们从 Meta 即将发布的新产品谈起吧。能否介绍一下这些模型和 Meta AI 的最新动态?

Mark Zuckerberg:全球大多数人首先会注意到 Meta AI 的全新版本。我们这次主要是升级了模型,推出了 Llama-3。这一版本不仅向开发者社区开放源代码,还将支撑 Meta AI 的运行。关于 Llama-3 的内容很多,不过最关键的是,我们认为现在的 Meta AI 是目前市场上最智能的可免费使用 AI 助手。我们还集成了 Google 和 Bing,以提供实时的知识查询。

我们还将增加它在我们应用中的使用。在 Facebook 和 Messenger 中将其置顶,用户可以直接在搜索框中提问。我们还加入了一些创新功能,比如动画,用户可以将任意图片制作成动画。

其中一个特别惊艳的功能是,现在系统可以在你输入查询内容时,实时生成并更新高质量图片。比如你输入 “展示一张背景有山的牧场上,一头正在吃澳洲坚果、喝啤酒的牛” 的图片,系统会实时更新这张图片。这个功能非常神奇,我相信大家会喜欢。我们将首先在部分国家推出这一功能,并在未来几周到几个月逐步扩大范围。这是一个重大的成果,我非常期待能将其推广到用户手中,这对 Meta AI 来说很重要。

但如果你想深入了解技术细节,Llama-3 的相关内容无疑是最有技术含量的。我们目前正在训练三个版本,分别是 80 亿参数的模型和 700 亿参数的模型,还有一个 4050 亿参数的密集型模型仍在训练中。80 亿和 700 亿参数的模型已经达到了业界领先水平。我们将发布一篇博客,详细介绍所有的基准测试,以便大家自行查看。由于它是开源的,开发者们将有机会亲自尝试。

我们制定了即将推出的新版本的路线图,这些版本将带来更多模式的互动、多语言支持及更大的上下文窗口。希望在今年晚些时候,我们能推出 4050 亿参数的模型。目前,这一模型在训练中已达到约 85 MMLU,预计在多个基准测试中将取得领先成绩。700 亿参数的模型同样表现出色,今天发布的版本已达到约 82 MMLU,在数学和逻辑推理方面取得了领先成绩。我认为把这些模型交到用户手中将是一个激动人心的过程。

Dwarkesh Patel:真有意思。这还是我第一次听说作为一个基准的。实在是太令人印象深刻了。

Mark Zuckerberg:80 亿参数的模型几乎和我们之前发布的 Llama-2 中最大的版本一样强大。因此,Llama-3 中最小的模型基本上已经达到了 Llama-2 中最大模型的水平。

Dwarkesh Patel:在我们深入探讨这些模型之前,我想回顾一下过去。我猜是在 2022 年你开始引进这些 H100 芯片的,你可以告诉我具体时间。股票价格大幅下跌,人们都在问这些大量的资本开支是为了什么。人们对 Meta 持怀疑态度。可以说你是为了获取这些 H100 而开支的。你是怎么知道当时就需要这些 H100 的?你是如何预知你将需要这些 GPU 的?

Mark Zuckerberg:我想这是因为我们当时在开发 Reels。我们总是希望拥有足够的能力来开发一些我们尚未预见到的产品。在 Reels 项目中,我们遇到了需要更多 GPU 来训练模型的情况。这是我们服务的一次重大变革。我们不再仅仅是对你关注的人或页面的内容进行排序,而是开始推荐那些你未关注的人或页面的内容,我们称之为 “未连接内容”。

我们可以向你展示的内容候选数量从几千增加到几亿,这需要完全不同的基础设施。我们开始关注这项工作,但基础设施的限制使我们无法像希望的那样,快速追赶 TikTok。我从中得出的结论是:“我们必须确保我们未来永远不会再陷入这种境地。” 因此,我们决定购买足够的 GPU 来满足我们在 Reels 项目以及内容排序和信息流方面的需求,并且我们还加倍了订单。我们的常规原则是,总有一些我们尚未看到的事情在前方等待我们。

Dwarkesh Patel:你当时就知道这将是 AI 吗?

Mark Zuckerberg:我们认为这将涉及到训练大型模型。那时,我想这可能与内容有关。这是运营公司的常态,总有新的事情出现。那时我全身心投入于让推荐系统为 Reels 和其他内容正常工作。这对 Instagram 和 Facebook 现在来说是一个巨大的突破,因为它能够向用户展示来自他们未关注的人的有趣内容。

但从事后来看,这是一个非常明智的决定。这并不是因为我有多么的前瞻性。事实上,大多数我们做出看似明智决定的时候,都是因为我们之前在某些事情上犯过错误,只是不想重蹈覆辙。

Dwarkesh Patel:这完全是个题外话,但既然我们聊到这个,我还是想问一下。我们很快就会回到 AI 的话题。2006 年你没有以 10 亿美元卖出 Facebook,但肯定有一个你愿意出售的价格,对吗?你是否曾在脑海中评估过当时 Facebook 的实际价值,认为他们的出价并不是正确的估值?如果他们开出了 5 万亿美元的价格,当然你会卖出。那你是如何考虑这个选择的?

Mark Zuckerberg:我认为这些决定有些是基于个人情感的。我不确定当时我是否具备足够的成熟度来进行那种分析。我周围有很多人,他们都在为 10 亿美元提供各种理由,比如 “我们需要达到的收入,我们需要达到的规模,这明显是未来很多年的事情。” 这远远超出了我们当时的实际情况。我实际上没有足够的财务知识来深入参与那种讨论。

但我内心深处相信我们的事业。我做过一些思考,比如 “如果我不做这个,我会做什么?嗯,我真的喜欢建设,喜欢帮助人们进行交流。我喜欢理解人与人之间的动态。所以我想如果我卖掉这个公司,我可能会去创建另一家类似的公司,而且我确实很喜欢我现在这家。那我为什么要卖呢?” 我认为人们做出的许多重大决策通常基于个人的信念和价值观。实际上,通常很难进行前瞻性的分析来预测未来。

二.通往 AGI 的编码之路
Dwarkesh Patel:你拥有 Facebook AI 研究中心已经有很长一段时间了。现在,它似乎已成为贵公司的核心。在什么时候,让 AGI 成为 Meta 正在做的事情的关键优先事项?
Mark Zuckerberg:这是一件大事,已经有一段时间了。大约 10 年前,我们开始了 FAIR 项目。我们的想法是,在通往通用智能或其他任何你想称之为智能的道路上,将会出现各种不同的创新,而这将会改善我们所做的一切。所以我们并没有把它想象成一个产品。它更像是一个研究小组。在过去的 10 年里,它创造了很多不同的东西,改进了我们所有的产品。它推动了这一领域的发展,也让这一领域的其他人能够创造出改进我们产品的东西。我认为这非常好。

过去几年中,ChatGPT 和围绕图像创建的扩散模型的出现显然带来了巨大的变化。这是一些非常疯狂的事情,很明显会影响到人们与每款应用程序的交互方式。在这一点上,我们成立了第二个小组,即生成式 AI 小组,目标是将这些东西引入我们的产品,并建立领先的基础模型,为所有这些不同的产品提供动力。

当我们开始这样做时,最初的理论是,我们正在做的很多事情都是非常社交化的。它帮助人们与创作者互动,帮助人们与企业互动,帮助企业销售产品或提供客户支持。还有基本的助理功能,无论是我们的应用程序还是智能眼镜或 VR。因此,起初并不完全清楚是否需要完整的 AGI 来支持这些用例。但通过这些微妙的方式,我认为我们已经清楚地认识到了这一点。例如,在开发 Llama-2 时,我们并没有优先考虑编码问题,因为人们不会在 WhatsApp 中向 Meta AI 提出很多编码问题。

Dwarkesh Patel:现在他们会了,对吧? 
Mark Zuckerberg:我不知道。我不确定 WhatsApp、Facebook 或 Instagram 是否是人们提出大量编码问题的 UI。也许我们正在推出的网站 meta.ai,就是这样一个 UI。但在过去的 18 个月里,一个令人惊讶的结果是,原来编码对很多领域都很重要。即使人们没有提出编码问题,对模型进行编码训练也有助于它们更严谨地回答问题,并帮助它们在许多不同类型的领域进行推理。这就是 Llama-3 的一个例子,我们非常注重对它进行大量的编码训练,因为即使人们主要问的不是编码问题,这也会让它在所有这些方面做得更好。

推理是另一个例子。也许你想与创作者聊天,或者你是一家企业,你想与客户互动。这种互动不仅仅是 “好吧,对方给你发条消息,你回复一下就可以了”。这是一个多步骤的互动,你要想清楚 “我怎样才能实现对方的目标?” 很多时候,当客户来访时,他们并不一定清楚自己在寻找什么,也不知道如何提问。因此,AI 的工作其实并不只是回答问题。

你需要更全面地考虑这个问题。这实际上成了一个推理问题。所以,如果别人解决了推理问题,或者在推理方面取得了很好的进展,而我们却坐在这里,只做了一个基本的聊天机器人,那么我们的产品与别人的产品相比就太逊色了。最后,我们基本上意识到,我们必须解决通用智能问题,于是我们加大了投入,以确保我们能做到这一点。

Dwarkesh Patel:能够为用户解决所有这些用例的 Llama 版本,是否足够强大到可以取代你在这栋大楼里的程序员?
Mark Zuckerberg:我只是认为,所有这些东西都将随着时间的推移而不断进步。
Dwarkesh Patel:目标是 Llama-10。
Mark Zuckerberg:我觉得这个问题里有很多东西。我不确定我们是否在取代人类,但我们给人类提供了做更多事情的工具。
Dwarkesh Patel:Llama-10 之后,程序员的工作效率是不是能提高 10 倍?
Mark Zuckerberg:我希望更多。我不认为人类的智力有一个单一的阈值,因为人们的技能各不相同。我认为,在某些时候,AI 可能会在大多数方面超越人类,这取决于模型有多强大。但我认为这是循序渐进的,我不认为通用人工智能是一件事。你基本上是在增加不同的能力。

多模态是我们现在关注的一个关键点,最初是照片、图像和文本,但最终会是视频。因为我们非常关注元宇宙,所以 3D 类型的东西也很重要。我非常关注的一种方式是情感理解,这是我在业内没有看到过的。人类大脑的大部分功能就是理解人,理解人的表情和情绪。我认为这本身就是一个完整的模式,对吗?你可以说它只是视频或图像,但它显然是这两者的一个非常专业的版本。

因此,除了在推理和记忆方面做得更好之外,你还想训练模型关注所有这些不同的能力,这也是它本身的一个整体。我认为,在未来,我们将不再主要把东西塞进查询上下文窗口来提出更复杂的问题。我们会有不同的记忆存储或不同的自定义模型,为人们提供更加个性化的服务。这些都是不同的功能。很明显,还有让它们变大和变小的问题。我们对两者都很关注。如果你要运行 Meta AI 这样的东西,那是非常基于服务器的。我们还希望它能在智能眼镜上运行,而智能眼镜的空间并不大。因此,你需要一些非常高效的东西。

Dwarkesh Patel:如果你要做价值 100 亿美元的推理,甚至最终要做价值 1000 亿美元的推理,如果你要在工业规模上使用智能,用例是什么?是模拟吗?是元宇宙中的 AI 吗?我们将如何使用数据中心?

Mark Zuckerberg:我们相信它基本上会改变所有产品。我认为将会出现一种元 AI 通用助理产品。我认为,它将从更像聊天机器人的东西,即你问一个问题,它给出一个答案,转变为你给它更复杂的任务,然后它去做。这需要大量的推理,也需要大量的计算。

然后,我认为,无论是为企业还是为创作者,为他人与其他代理互动将成为我们工作的重要组成部分。我在这方面的一个重要理论是,与你互动的 AI 不会只有一个。每个企业都希望有一个能代表他们利益的 AI。他们不会希望主要通过一个销售竞争对手产品的 AI 来与你互动。

我认为创作者将是一个大问题。我们的平台上有大约 2 亿创作者。他们基本上都有这样的模式:他们想与自己的社区互动,但又受限于每天的时间。他们的社区普遍希望与他们互动,但他们不知道自己受到一天中时间的限制。如果你能创造出一种东西,让创造者基本上可以拥有 AI,以他们想要的方式训练 AI,并让他们的社区参与进来,我认为这将会非常强大。在所有这些事情上,都会有大量的参与。

这些只是消费者用例。我和我的妻子经营着我们的基金会 “陈 - 扎克伯格倡议”。我们在科学领域做了很多工作,显然有很多 AI 工作将推动科学、医疗保健和所有这些领域的发展。因此,它最终将影响产品和经济的各个领域。

Dwarkesh Patel:你提到 AI 可以出去为你做一些多步骤的事情。这是一个更大的模型吗?以 Llama-4 为例,是否还会有一个 70B 的版本,但你只需用正确的数据训练它,它就会变得超级强大?进展是怎样的?是按比例缩放吗?是不是就像你说的那样,只是规模相同但库不同?

Mark Zuckerberg:我不知道我们是否知道答案。我认为有一点似乎是一种模式,那就是你有了 Llama 模型,然后围绕它构建一些其他特定的应用代码。其中有些是针对用例的微调,有些则是 Meta AI 如何与 Google 或 Bing 等工具协同工作以引入实时知识的逻辑。这并不是基础 Llama 模型的一部分。

在 Llama-2 中,我们有一些这样的内容,而且是人工设计的。我们在 Llama-3 中的部分目标是将更多的这些内容引入模型本身。对于 Llama-3,随着我们开始涉足更多类似代理的行为,我认为其中一些行为将更多地由人工设计。我们在 Llama-4 中的目标将是把更多的这种行为引入模型。

每走一步,你都能感觉到地平线上会出现什么。你会开始弄乱它,在它周围黑客攻击。我认为这有助于磨练你的直觉,让你知道下一版模型要训练什么。这让它变得更通用,因为很明显,对于任何你手工编码的东西,你都可以解锁一些用例,但它本质上很脆,而且不通用。

Dwarkesh Patel:当你说 “融入模型本身” 时,你是在模型本身中对你想要的东西进行训练吗?你说的 “融入模型本身” 是什么意思?

Mark Zuckerberg:对于 Llama- 2,工具的使用非常特殊,而 Llama-3 的工具使用要好得多。我们不必手工编写所有代码,让它使用 Google 进行搜索。它可以直接这样做。类似的还有编码、运行代码和其他类似的功能。一旦你具备了这种能力,你就能窥见我们下一步可以做什么。我们不一定要等到 Llama-4 出现后才开始构建这些功能,因此我们可以开始对它进行黑客攻击。即使只是暂时的,我们也要进行大量的手工编码,让产品变得更好。这有助于为我们下一版模型的构建指明方向。

Dwarkesh Patel:你最期待的 Llama-3 社区微调是什么?也许不是对你最有用的,而是你最喜欢玩的。他们在 antiquity 上进行微调,你就能和 Virgil 或其他什么人对话了。你对什么感到兴奋?

Mark Zuckerberg:我觉得这些东西的本质就是让你感到惊喜。任何我认为有价值的具体东西,我们都可能正在构建。我认为你会得到经过提炼的版本。我认为你会得到更小的版本。有一件事是,我认为 8B 还不够小,不能满足很多用例。随着时间的推移,我希望能得到一个 1-2B 参数的模型,甚至是一个 5 亿参数的模型,看看你能用它做些什么。

如果有了 80 亿个参数,我们就能和最大的 Llama-2 模型一样强大,那么有了 10 亿个参数,你就能做一些有趣的事情,而且速度更快。在理解用户查询的意图之前,它可以很好地进行分类,或者做很多基本的事情,并将其输入到最强大的模型中,以确定提示应该是什么。我认为这一点也许社区可以提供帮助。我们也在考虑自己来提炼其中的一些内容,但现在 GPU 正在训练 405B模型。

Dwarkesh Patel:所以你有所有这些 GPU。我记得你说过到今年年底会有 35 万台。

Mark Zuckerberg:这是整个机队。我们建立了两个,我想是 22,000 或 24,000 个集群,这些集群是我们用于训练大型模型的单个集群。我们的很多工作都用于训练 Reels 模型、Facebook News Feed 和 Instagram Feed。推理对我们来说是一件大事,因为我们为大量的人提供服务。我们所需的推理计算量与训练量之比,可能远高于其他大多数做这些事情的公司,这只是因为我们服务的社区数量庞大。

Dwarkesh Patel:在他们之前与我分享的材料中,非常有趣的一点是,你在更多的数据上进行了训练,而不仅仅是训练的最佳计算量。对你们和社区来说,推理都是一件大事,所以拥有这个东西和数万亿 Token 是有意义的。

Mark Zuckerberg:虽然它有一个有趣的地方,即使有了 70B,但我们认为它会变得更加饱和。我们在大约 15 万亿个 Token 上进行了训练。我想我们的预测是,它会越来越趋于饱和,但即使到了最后,它仍然在学习。我们也许可以给它更多的 Token,它也会变得更好。

在某些时候,你在经营一家公司,你需要做这些元推理的问题。我是否要花费 GPU 进一步训练 70B 模型?我们要不要继续下去,以便开始测试 Llama-4 的假设?我们需要做出这样的抉择,我认为我们在这一版本的 70B 模型中取得了合理的平衡。未来还会有其他版本的 70B 多模态版本,将在下一阶段推出。但令人着迷的是,目前的架构可以处理如此多的数据。

Dwarkesh Patel:这真的很有趣。这对未来的模型意味着什么?你提到 Llama-3 8B 比 Llama-2 70B 更好。
Mark Zuckerberg:不,几乎一样好。我不想夸大其词。它在数量级上差不多。

三.能源瓶颈
Dwarkesh Patel:这是否意味着 Llama-4 70B 将与 Llama-3 405B 一样出色?未来会怎样?
Mark Zuckerberg:这是一个大问题,对吗?我觉得没人知道。世界上最难规划的事情之一就是指数曲线。它会持续多久?我认为我们很有可能继续走下去。我认为值得投资 100 亿美元或 1000 亿美元以上来建设基础设施,并假设如果它继续发展下去,你将会得到一些真正令人惊叹的东西,从而制造出令人惊叹的产品。我不认为业内有人能告诉你,它一定会以这样的速度继续扩展。在历史上,一般都会在某些时候遇到瓶颈。现在有如此多的精力投入其中,也许这些瓶颈很快就会被打破。我认为这是一个有趣的问题。

Dwarkesh Patel:如果没有这些瓶颈,世界会变成什么样?假设进步就以这样的速度持续下去,这似乎是可行的。把镜头拉远,忘掉 Llama……

Mark Zuckerberg:会有不同的瓶颈。在过去几年里,我认为出现了 GPU 生产问题。即使是有钱购买 GPU 的公司,也不一定能如愿以偿,因为存在供应限制。现在,我认为这种情况正在减少。因此,你会看到很多公司现在都在考虑投入大量资金来建造这些东西。我认为这种情况还会持续一段时间。有一个资本问题。到什么时候才值得投入资金?

实际上,我认为在达到这个目标之前,你会遇到能源限制。我认为目前还没有人建造出千兆瓦级的单一训练集群。在这个世界上,你会遇到这些最终会变得缓慢的事情。获得能源许可是一项受到严格监管的政府职能。你从软件行业转过来,而软件行业在某种程度上是受监管的,我认为这比很多科技界人士所感受到的更受监管。显然,如果你正在创办一家小公司,情况会有所不同,也许你的感受会少一些。我们与不同的政府和监管机构打交道,我们需要遵守很多规则,并确保我们在世界各地都做得很好。但我认为,能源是毋庸置疑的。

如果你在谈论新建大型发电厂或大型扩建工程,然后建设穿越其他私人或公共土地的输电线路,这就是一个受到严格监管的问题。这需要很多年的准备时间。如果我们想建立一些大型设施,为其提供电力是一个非常长期的项目。我认为人们会这么做,但我不认为这就像 AI 达到一定水平、获得大量资金并投入其中,然后突然模型就会运行……你会遇到不同的瓶颈。

Dwarkesh Patel:有没有什么东西,也许是 AI 相关的项目,也许不是,即使是像 Meta 这样的公司也没有足够的资源?如果你的研发预算或资本支出预算是现在的 10 倍,你就可以去做吗?某些东西在你的脑海中挥之不去,但对于现在的 Meta 公司来说,你甚至无法为此发行股票或债券?它就像比你的预算大 10 倍?

Mark Zuckerberg:我觉得能源是一块。我认为,如果我们能获得能源,我们可能会建立比现在更大的集群。
Dwarkesh Patel:这从根本上说是资金瓶颈的限制?如果你有 1 万亿美元……
Mark Zuckerberg:我认为这是时间问题。这取决于指数曲线能走多远。现在,很多数据中心的功率都在 50 兆瓦或 100 兆瓦左右,大的可能达到 150 兆瓦。把整个数据中心装满你需要进行培训的所有东西,你就可以建立最大的集群。我认为很多公司都在做这样的事情。

但是,当你开始建设一个 300 兆瓦、500 兆瓦或 1 千兆瓦的数据中心时,还没有人建设过 1 千兆瓦的数据中心。我认为这将会发生。这只是时间问题,但不会是明年。有些东西需要若干年才能建成。从这个角度来看,我认为千兆瓦的规模相当于一个核电站的规模,只是用于培训一个模型。

Dwarkesh Patel:亚马逊不是这样做的吗?他们有一个 950MW-
Mark Zuckerberg:我不太清楚他们做了什么。你得问问他们。
Dwarkesh Patel:但不一定要在同一个地方,对吧?如果分布式训练有效,那就可以分布式训练。

Mark Zuckerberg:我认为这是一个很大的问题,即如何实现分布式训练。在未来,我们所说的大型模型的训练,实际上更多的是沿着推理生成合成数据的思路,然后再输入到模型中。我不知道这个比例会是多少,但我认为合成数据的生成比现在的训练更像是推理。显然,如果你是为了训练一个模型而做这些工作,那么这就是更广泛的训练过程的一部分。所以这是一个开放性的问题,即如何平衡以及如何发挥。

Dwarkesh Patel:Llama-3 和 Llama-4 以后的情况会不会也是这样?就像你把这个东西放出来,如果有人拥有大量的计算能力,那么他们就可以利用你放出来的模型不断让这些东西变得更聪明。比方说,某个国家,比如科威特或阿联酋,拥有大量的计算能力,他们就可以利用 Llama-4 做出更智能的东西。

Mark Zuckerberg:我确实认为会有这样的动力,但我也认为模型架构存在根本性的限制。我认为,我们用 Llama-3 架构训练的 70B 模型可以变得更好,可以继续前进。正如我刚才所说,我们认为,如果我们继续向它输入更多数据,或者再次轮换高价值 Token,那么它就会继续变得更好。

我们已经看到,世界上有很多不同的公司基本上都采用了 Llama-2 70B 模型架构,然后再建立一个新的模型。但是,当你对 Llama-3 70B 或 Llama-3 405B 等型号进行换代改进时,现在仍然没有类似的开源产品。我认为这是一个很大的进步。我认为,人们在此基础上的发展不可能是无限的。在达到下一步功能之前,可以对其进行一些优化。

四.AI 是有史以来最重要的技术吗?
Dwarkesh Patel:让我们把视线从具体模型,甚至是获得能源审批所需的多年准备时间等方面放大一点。从大局来看,AI 在未来几十年会发生什么?它是像元宇宙或社交一样的另一种技术,还是像人类历史进程中的一件根本不同的事情?
Mark Zuckerberg:我认为这将是非常根本性的。我认为这将更像计算机的诞生。你会得到所有这些新的应用程序,就像你有了网络或手机一样。人们基本上会重新思考所有这些体验,因为很多以前不可能实现的事情现在都变得可能了。因此,我认为这种情况会发生,但我认为这是一种更低层次的创新。我的感觉是,这更像是人们从没有电脑到拥有电脑。

我们很难推理出这究竟是怎么一回事。在宇宙尺度上,这显然会很快发生,在几十年或更长的时间内。有些人害怕它真的会在一夜之间从某种程度上的智能变成极端的智能。我只是认为,所有这些物理限制使得这种情况不太可能发生。我觉得这种情况不会发生。我认为我们会有时间适应一下。但它确实会改变我们的工作方式,给人们提供所有这些创造性的工具来做不同的事情。我认为这将使人们能够做更多他们想做的事情。

Dwarkesh Patel:所以,也许不是一蹴而就的,但在你看来,从宇宙的尺度来看,我们是否可以这样看待这些里程碑?人类进化了,然后 AI 出现了,然后他们进入了银河系。也许需要几十年,也许需要一个世纪,但这就是历史上正在发生的大事吗?

Mark Zuckerberg:抱歉,在什么意义上?
Dwarkesh Patel:从这个意义上说,还有其他技术,比如计算机,甚至火,但 AI 本身的发展与人类最初的进化一样重要。
Mark Zuckerberg:我觉得这很棘手。人类的历史基本上就是人们认为人类的某些方面在不同方面确实是独一无二的,然后逐渐发现事实并非如此,但人类实际上仍然是超级特别的。我们以为地球是宇宙的中心,但事实并非如此,但人类仍然非常了不起,非常独特,不是吗?

我认为人们的另一个偏见是认为智力与生命有着某种根本的联系。实际上,这一点并不明确。我不知道我们对意识或生命是否有足够清晰的定义,以至于无法全面地探讨这个问题。科幻小说里有很多关于创造智能的描写,让智能开始具有类似人类的行为之类的东西。目前所有这些东西的化身感觉就像是在朝着一个方向发展,在这个方向上,智能可以与意识、能动性以及诸如此类的东西很好地分离开来,我认为这使得它成为了一个超级有价值的工具。

五.开源的危险
显然,要预测这些东西随着时间的推移会朝着什么方向发展是非常困难的,这就是为什么我认为任何人都不应该固执地认为他们计划如何开发或计划做什么。你要根据每次发布的情况来看待它。显然,我们非常支持开源,但我并没有承诺发布我们所做的每一件事。我基本上倾向于认为开源对社区和我们都有好处,因为我们将从创新中受益。但是,如果到了某个时候,这个东西的功能发生了质的变化,而我们觉得开源是不负责任的,那么我们就不会开源。这一切都很难预测。
Dwarkesh Patel:在你训练 Llama-5 或 Llama-4 的过程中,如果你看到了某种具体的质变,它会让你觉得 “你知道吗,我不确定是否要将其开源” 吗?

Mark Zuckerberg:要抽象地回答这个问题有点难,因为任何产品都会有一些负面行为,只要你能减少这些行为,就没有问题。社交媒体也有不好的地方,我们会努力去减少。我们花了很多时间来确保 “Llama-2” 不会帮助人们实施暴力行为或类似行为。这并不意味着它是一种自主或智能的代理。这只是意味着,它已经对这个世界有了很多了解,它可以回答一系列我们认为它无法回答的问题。我认为,问题并不在于它能表现出什么行为,而是在它表现出这些行为之后,我们将无法缓解哪些问题。

我认为,事物的好坏有很多方面,很难一一列举。看看我们不得不面对的社交媒体和不同类型的危害。我们基本上已经总结出了 18 或 19 类人们所做的有害事情,我们基本上已经建立了 AI 系统来识别这些事情,并尽可能确保这些事情不会在我们的网络上发生。随着时间的推移,我认为你也可以将其细分为更多的分类法。我想这也是我们花时间研究的一个问题,因为我们想确保我们了解这一点。

Dwarkesh Patel:在我看来,这是个好主意。如果未来 AI 系统没有得到广泛部署,每个人都无法使用它们,我会感到失望。同时,我也想更好地了解缓解措施。如果缓解措施是微调,那么开放权重的整体意义就在于,你可以去掉微调,而微调往往是这些能力之上的表面现象。如果这就像在 Slack 上与生物学研究人员聊天……我认为模型离这还很远。现在,它们就像 Google 搜索一样。但如果我能向他们展示我的培养皿,而他们能解释为什么我的天花样本没有生长,以及该如何改变,你又该如何缓解这种情况呢?因为有人可以在其中进行微调,对吗?

Mark Zuckerberg:没错。我认为,很多人基本上都会使用现成的模式,而一些基本没有诚意的人则会试图去掉所有不好的东西。所以我认为这是一个问题。反过来说,我在哲学上如此支持开源的原因之一是,我确实认为未来 AI 的集中有可能和它的普及一样危险。我认为很多人都在思考这样的问题:“如果我们能做到这一点,那么将其广泛应用是不是很糟糕?” 我认为这个问题的另一个版本是,如果一个机构的 AI 比其他人的 AI 都要强大,这可能也是非常糟糕的。

我想到了一个安全方面的比喻。在许多不同的事物中都存在着许多安全漏洞。如果你能穿越时空回到一年或两年前,假设你对安全漏洞的了解多了一两年。你几乎可以黑进任何系统。这可不是 AI。所以,如果说一个非常智能的 AI 可能能够识别出一些漏洞,基本上就像人类一样,可以回到一两年前,入侵所有这些系统,这并不牵强。

那么,作为一个社会,我们是如何应对这种情况的呢?其中一个重要因素就是开源软件,当软件得到改进时,它不会仅仅停留在一家公司的产品中,而是可以广泛部署到许多不同的系统中,无论是银行、医院还是政府系统。随着软件的加固,因为有更多的人可以看到它,有更多的人可以使用它,这些东西的工作方式就有了标准。这个世界可以很快地一起升级。

我认为,在一个 AI 被广泛部署的世界里,随着时间的推移,AI 会逐步得到强化,在某种程度上,所有不同的系统都会受到控制。在我看来,从根本上说,这比集中使用 AI 更健康。因此,各方都有风险,但我认为这是一个我很少听到人们谈论的风险。AI 系统有做坏事的风险。但我更担心的是不值得信赖的行为者拥有超强的 AI,不管是敌对的政府还是不值得信赖的公司或其他什么。我认为这可能是一个更大的风险。

Dwarkesh Patel:就像他们可以推翻我们的政府,因为他们拥有别人没有的武器?

Mark Zuckerberg:或者只是造成很多混乱。我认为,直觉告诉我们,这些东西在经济、安全和其他方面都是非常重要和有价值的。如果你不信任的人或对手得到了更强大的东西,那么我认为这可能是一个问题。也许缓解这一问题的最好办法就是让优秀的开源 AI 成为标准,并在很多方面成为领导者。这将确保竞争环境更加公平和平衡。

Dwarkesh Patel:在我看来这是可行的。如果能实现,那将是我更喜欢的未来。我想从机制上理解,世界上有开源的 AI 系统,如何防止有人用他们的 AI 系统制造混乱?举个具体的例子,如果有人携带生化武器来袭,我们是否会在世界其他地方进行大量研发,以快速找出疫苗?会发生什么?

Mark Zuckerberg:如果以我刚才说的安全问题为例,我认为一个 AI 较弱的人试图入侵一个由较强 AI 保护的系统,成功率会比较低。在软件安全方面 ——
Dwarkesh Patel:我们怎么知道世界上所有东西都是这样的?如果生物武器不是这样呢?

Mark Zuckerberg:我的意思是,我不知道世界上所有的东西都是这样的。生物武器是人们最担心的领域之一,我认为这很有道理。有一些缓解措施。你可以尝试不在模型中训练某些知识。有很多不同的方法,但在某种程度上,如果你遇到一个足够坏的行为者,而你又没有其他 AI 来平衡他们并了解威胁是什么,那么这可能就是一个风险。这是我们需要注意的问题之一。

Dwarkesh Patel:在部署这些系统的过程中,你会不会遇到这样的情况:你在训练 “Llama-4” 的时候,它以为你没有注意到它,就对你撒了谎,然后你就会问 “哇,这是怎么回事?” 这种情况在 Llama-4 类型的系统中可能不太可能发生,但你是否可以想象这样的情况,你会非常担心欺骗性和数十亿份拷贝在野外出现?

Mark Zuckerberg:我的意思是,现在我们看到了很多幻觉。我认为这是一个有趣的问题,你如何区分幻觉和欺骗?有很多风险和需要考虑的事情。至少在经营我们公司的过程中,我试图在这些长期的理论风险和我实际上认为当今存在的相当真实的风险之间取得平衡。因此,当你谈到欺骗时,我最担心的形式是人们利用这种方式制造错误信息,然后通过我们的网络或其他网络进行传播。我们打击这类有害内容的方法是建立比对手更聪明的 AI 系统。

这也是我的部分理论依据。如果你看看人们通过社交网络造成或试图造成的不同类型的伤害,有些伤害并不具有很强的对抗性。例如,仇恨言论的对抗性并不强,因为人们并没有在种族主义方面变得更好。我认为,在这些问题上,人工智能的发展速度要比人类快得多。我们两方面都有问题。人们会做坏事,不管他们是想煽动暴力还是什么,但我们也有很多误报,我们基本上审查了不该审查的东西。我认为这让很多人感到恼火,这是可以理解的。所以我认为,随着时间的推移,让 AI 在这方面变得越来越精确将是一件好事。

但让我再举一个例子:民族国家试图干涉选举。在这个例子中,他们绝对拥有最先进的技术,而且每年都在进步。因此,我们封锁一些技术,他们就会学习我们的做法,然后用不同的技术来对付我们。这不像一个人试图说一些刻薄的话,他们有自己的目标。他们很老练,他们有很多技术,在这种情况下,我仍然认为我们的 AI 系统能够以比他们更快的速度发展。这是一场军备竞赛,但我认为我们至少在这场军备竞赛中获胜了。这就是我花时间思考的很多问题。

是的,不管是 Llama-4 还是 Llama-6,我们都需要思考我们观察到的行为,这不仅仅是我们自己的问题。你将其开源的部分原因是,有很多其他人也在研究这个问题。因此,我们想看看其他人观察到了什么,我们观察到了什么,我们可以减少什么,然后我们再评估是否可以将其开源。在可预见的未来,我很乐观地认为我们能够做到。就近期而言,我不想把我们的注意力从人们今天试图使用模型来做的实际坏事上移开。即使它们并不存在,但在我们的服务运行过程中,也存在着我们所熟悉的非常糟糕的日常危害。这实际上也是我们必须花时间解决的很多问题。

Dwarkesh Patel:我对合成数据颇感兴趣。现有模型重复使用合成数据似乎遇到了瓶颈。但如果模型更加智能,采用你在论文或即将发布的博客中提到的技术 —— 选择最正确的思考链,你认为为何这不会形成一个正反馈循环,即模型通过不断优化输出而变得更智能?当然,这个过程不会一蹴而就,可能需要数月甚至数年的训练才能实现。

Mark Zuckerberg:我认为这在模型的架构参数允许的范围内是可能的。只是以当前的 80 亿参数模型为例,我认为它们还无法达到集成了最新研究的数千亿参数的先进模型水平。

Dwarkesh Patel:但这些模型最终也会开源对吗?
Mark Zuckerberg:是的,虽然还受到我们刚讨论的诸多问题的限制。我们希望能这样。但我认为在软件开发的每个阶段,虽然软件能做很多事,但最终都受限于运行它们的硬件。因此,总会存在各种物理限制。模型的规模最终受到可用于推理的能源大小的限制。我对这些技术能快速进步持乐观态度,但同时也比某些人更持保留意见。我不认为无限循环是一个很可能发生的情况。

Dwarkesh Patel:保持开放选择显得尤为重要。我们对很多事情一无所知。在某些情况下,保持力量平衡,防止任何人成为专制独裁者极为关键。有情况下,你可能不希望开源架构,因为中国可能利用它追赶美国的 AI,并可能引发智力大爆炸,赢得竞赛。许多事情似乎都有可能发生。在考虑这些可能性时保持选择的开放性似乎是合理的。

Mark Zuckerberg:确实如此。
Dwarkesh Patel:让我们谈谈其他话题。你最感兴趣的是人类历史的哪一个时期?从公元前 100,000 年到现在,你想亲眼看看那时的世界吗?
Mark Zuckerberg:一定要是过去的时期吗?
Dwarkesh Patel:是的,必须是过去的。

Mark Zuckerberg:我对美国历史和古典历史很感兴趣,同样对科学史也很感兴趣。真正了解一些重大科学进展是如何发生的,对我来说非常有趣。我们手头的资料非常有限。我不确定元宇宙是否能让我们实现这一点,因为回到没有记录的过去将是非常困难的。实际上,我并不确定回到过去对元宇宙而言是否真的那么重要。虽然这可能会在历史课上非常酷,但这可能并不是我最期待元宇宙的主要用途。

主要的是,无论你身在何处,都能感觉到与人同在。这将是变革性的。我们之前讨论的 AI,很多都是关于这一切的物理限制。一个技术教训是,尽可能将问题从物理限制转移到软件,因为软件更易于构建和发展,更能被大众化。不是每个人都能拥有数据中心,但很多人能编写和修改开源代码。元宇宙的实现,使得真实的数字化存在成为可能,这将是一个巨大的飞跃,让人们不必为了多数事务而聚在一起。

我认为,在物理上聚在一起有其优点,这些并不是非此即彼的选择。它不会是 “好了,现在你不需要再那样做了。” 但总体来说,我认为这将极大地增强社交活动的力量,让人们感觉更加连接,无论是工作还是医疗等多个领域,都将受益匪浅。

Dwarkesh Patel:回到我们谈话开始你提到的一些事情。你没有因为十亿美元而出售公司。尽管市场对你投入元宇宙的决定表示不满,你知道你会这么做。我很好奇,是什么赋予你这种信心?你提到 “价值观和直觉”,但这是每个人都会说的。如果你要描述与你特别相关的东西,你会怎么说?为什么你如此确信元宇宙的未来?

Mark Zuckerberg:这些问题各有侧重。什么激励我?我们已经讨论了许多主题。我只是非常喜欢创造。我特别喜欢探索人们如何交流、表达自己及工作的方式。大学时,我学习了计算机科学和心理学,这两者的交叉给了我独特的视角。

这还源自一种深层的驱动力。我不知道如何表达,但如果我不在创造新事物,我就会觉得自己在做错事。即使我们为投资 AI 或元宇宙的巨额资金制定商业计划时,虽然我们的计划看似合理,但从一开始就无法完全确定。人们总是会有各种争论,是否值得冒这个险?对我来说,如果我停止尝试创新,那我就什么也不是了。我将在别处继续我的创造。我无法在不尝试创造我认为有趣的新事物的情况下管理任何事物。这对我而言根本不是问题,我们是否会着手实现下一个目标。这是我的本性。在我的生活的方方面面,我都是这样。我们家在考良建了一个牧场,我参与设计了所有建筑。我们开始养牛时,我想要世界上最好的牛,所以我们就开始构思如何实现这一目标,并建设必要的设施。这就是我。其他问题是什么?

Dwarkesh Patel:我不确定,但我其实对另一件事很好奇。那么,19 岁的 Mark 在高中和大学期间读了大量的古代文学和古典文学作品。你从中学到了什么重要的一课?不仅仅是你发现了有趣的东西,而是在你 19 岁的时候,你消耗的 token 并不多。其中很多都是关于经典的。显然,这在某种程度上很重要。

Mark Zuckerberg:你消耗的 Token 并不多…… 这是个好问题。这里有一件事我觉得非常吸引人。奥古斯都当上皇帝后,试图建立和平。当时还没有真正的和平概念。人们对和平的理解是,当你的敌人不可避免地攻击你时,和平就是这之间的短暂时间。因此,你可以得到短暂的休息。他的观点是将经济从唯利是图和军国主义转变为真正的正和。这在当时是一个非常新颖的想法。

这是最基本的东西:人们当时所能想象的理性工作方式的界限。这既适用于元宇宙,也适用于 AI。很多投资者和其他人都无法理解我们为什么要开源。他们会说:“我不明白,这是开源的。那一定是你们把东西变成专有的暂时间隙,对吧?” 我觉得这在科技领域是件很深奥的事,它实际上创造了很多赢家

我不想把这个比喻说得太复杂,但我确实认为,在很多时候,人们甚至无法理解一些构建事物的模式。他们无法理解这对人们来说是一件多么有价值的事情,也无法理解这对世界来说是一种多么合理的状态。我认为,合理的事情比人们想象的要多得多。

Dwarkesh Patel:这太吸引人了。我可以告诉你我是怎么想的吗,你可能会从中得到什么?这可能是完全错误的,但我认为这只是其中一些人是多么年轻,他们在帝国中扮演着非常重要的角色。例如,凯撒·奥古斯都 19 岁时就已经是罗马政坛最重要的人物之一。他领导战斗,组建第二三巨头。不知道 19 岁的你是否在想 “我能做到这一点,因为凯撒·奥古斯都做到了”。

Mark Zuckerberg:这是一个有趣的例子,既有很多历史上的例子,也有美国历史上的例子。我最喜欢的一句话是毕加索说的,所有的孩子都是艺术家,而挑战在于长大后如何保持艺术家的身份。年轻的时候,更容易产生天马行空的想法。在你的生活中,以及在你的公司或你建立的任何公司中,都存在着创新者困境的类比。你的人生轨迹较早,因此更容易转折,更容易接受新的想法,而不会打乱其他对不同事情的承诺。我认为这是经营公司的有趣之处。如何保持活力?

六.百亿美元模型与定制芯片的开源
Dwarkesh Patel:让我们回到投资者和开源的话题。假设 100 亿美元的模式是完全安全的。你们已经做了这些评估,与此不同的是,评估人员还可以对模型进行微调,希望未来的模型也能如此。你会开源 100 亿美元的模型吗?
Mark Zuckerberg:只要对我们有帮助,那就会。

Dwarkesh Patel:会吗?100 亿美元的研发,现在却开源了。

Mark Zuckerberg:随着时间的推移,我们也会对这个问题进行评估。我们开源软件的历史由来已久。我们不倾向于开源我们的产品。我们不会把 Instagram 的代码开源。我们会将许多底层基础设施开源。在我们的历史上,最大的一个项目可能就是我们的开放计算项目,我们将所有服务器、网络交换机和数据中心的设计都开源了,结果对我们帮助很大。虽然很多人都能设计服务器,但现在整个行业都以我们的设计为标准,这意味着供应链基本上都是围绕我们的设计建立起来的。因此,产量增加了,对每个人来说都变得更便宜了,而且还为我们节省了几十亿美元,这真是太棒了。

因此,开源可以通过多种方式为我们提供帮助。其一,如果人们想出了更便宜的运行模型的方法。随着时间的推移,我们将在这些东西上花费数百亿、上千亿美元甚至更多。因此,如果我们能更高效地运行 10% 的模型,我们就能节省数十亿或数百亿美元。这本身可能就价值不菲。特别是如果还有其他竞争模式存在,我们的东西就不像是在放弃某种疯狂的优势。

Dwarkesh Patel:你认为训练会被商品化吗?

Mark Zuckerberg:我认为这有很多可能的方式,这是其中之一。“商品化” 意味着训练会变得非常便宜,因为有很多选择。另一个可能的方向是质量改进。你提到了微调。目前,微调技术在其他主要模型上的应用非常有限。有一些选择,但一般不适合最大的模型。我们可以做的是,针对不同的应用程序或特定的使用案例,或将它们构建到特定的工具链中。我认为,这不仅能提高开发效率,还能带来质的不同。

这里有一个比喻。我认为移动生态系统最糟糕的一点是,苹果和谷歌这两家守门公司可以告诉你允许你做什么。这其中有经济方面的原因,就像我们造了什么东西,他们就拿走你一大笔钱。但还有一种定性版本,实际上更让我不爽。有很多次,当我们推出或想推出一些功能时,苹果却说 “不行,你不能推出”。这很糟糕,对吧?那么问题来了,我们是否已经为 AI 这样的世界做好了准备?会不会有少数几家公司运行着这些封闭的模型,控制着 API,从而告诉你可以构建什么?

对我们来说,我可以说,为了确保我们不处于这种境地,我们自己去建立一个模型是值得的。我不希望任何其他公司告诉我们可以构建什么。从开源的角度来看,我认为很多开发者也不希望那些公司告诉他们可以构建什么。那么问题来了,围绕这个问题建立起来的生态系统是什么?有哪些有趣的新事物?这能在多大程度上改善我们的产品?

我认为,在很多情况下,如果最终像我们的数据库、缓存系统或架构一样,我们将从社区获得有价值的贡献,从而使我们的产品变得更好。届时,我们所做的应用程序特定工作仍将非常与众不同,这并不重要。我们将能做我们该做的事。我们将从中受益,而所有的系统,无论是我们的还是社区的,都将因为开源而变得更好。

在另一个世界里,也许情况并非如此。也许模式最终更多的是产品本身。我认为,是否开放源代码是一个更棘手的经济问题。这样一来,你就把自己商品化了。但就我目前所见,我们似乎还没到那个地步。

Dwarkesh Patel:你希望通过向云提供商授权你的模型来获得可观的收入吗?因此,他们必须向你支付一定的费用,才能真正为该模型提供服务。

Mark Zuckerberg:我们希望有这样的安排,但我不知道会有多重要。这基本上就是我们对 Llama 的授权。在很多方面,它都是一个非常开放的开源许可,只是我们对使用它的最大公司有一个限制。这就是我们设置限制的原因。我们并不是要阻止他们使用。我们只是希望,如果他们打算从根本上利用我们构建的系统进行转售并从中牟利,那么他们应该来和我们谈谈。如果你是微软 Azure 或亚马逊,如果你打算转售该模型,那么我们应该有一些收入分成。所以,在你这样做之前,请先和我们谈谈。我们就是这么做的。

对于 Llama-2,我们基本上与所有这些主要的云计算公司都达成了协议,Llama-2 可以作为托管服务在所有这些云上使用。我认为,随着我们推出的机型越来越大,这将成为一件大事。这不是我们的主要工作,但我认为,如果这些公司要销售我们的模型,我们就应该以某种方式分享其中的好处。

Dwarkesh Patel:关于其他开源的危险,我认为你有真正合理的观点,关于权力平衡的东西和潜在的危害,你可以摆脱,因为我们有更好的对齐技术或其他东西。我希望 Meta 能有某种框架。其他实验室也有这样的框架,他们会说:“如果我们看到这个具体的东西,那就不允许开源,甚至可能不允许部署”。把它写下来,让公司做好准备,让人们对它有所期待,等等。

Mark Zuckerberg:关于生存风险,这一点很有道理。现在,我们更关注的是我们今天看到的风险类型,也就是更多的内容风险。我们不希望这种模式帮助人们实施暴力、欺诈或以各种方式伤害他人。虽然谈论存在的风险可能在智力上更有趣,但实际上,我认为真正需要花更多精力来减轻的危害是有人利用模型做出伤害他人的事情。在实践中,对于当前的模型,以及我猜测的下一代模型,甚至是下一代模型之后的模型,这些都是我们今天看到的更为普通的伤害类型,比如人们互相欺诈或类似的事情。我只是不想忽视这一点。我认为我们有责任确保在这方面做好工作。

Dwarkesh Patel:Meta 是一家大公司。你可以两者兼顾。

就开源而言,我很好奇你是否认为 PyTorch、React、Open Compute 等开源对世界的影响甚至大于 Meta 的社交媒体方面。我和使用这些服务的人聊过,他们认为这是可信的,因为互联网的很大一部分都是基于这些东西运行的。

Mark Zuckerberg:这是个有趣的问题。我的意思是,全世界几乎有一半的人都在使用我们的消费产品,所以这一点很难被超越。但我认为,开源作为一种新的构建方式,确实非常强大。我的意思是,这是可能的。就像贝尔实验室一样,他们在研究晶体管,因为他们想实现长途电话。他们做到了,并且最终因为能够实现长途电话而获得了丰厚的利润。5 到 10 年后,如果你问他们发明的最有用的东西是什么,他们会说 “好吧,我们开通了长途电话,现在所有的人都在打长途电话”。但如果你问一百年后的人,也许答案就不一样了。

我认为我们正在构建的很多东西都是如此:现实实验室、一些 AI 的东西、一些开源的东西。具体的产品会不断演变,在某种程度上也会来来去去,但人类的进步会持续下去,这就是我们能做的很酷的事情。

Dwarkesh Patel:Llama 模型什么时候能在你们自己的定制芯片上进行训练?

Mark Zuckerberg:很快,不是 Llama-4。我们采取的方法是,首先构建定制芯片,用于处理排名和推荐类型的推理,如 Reels、News Feed 广告等。这需要消耗大量 GPU。当我们能够将其转移到我们自己的芯片上时,我们现在可以只在训练时使用更昂贵的英伟达™(NVIDIA®)GPU。我们希望在未来的某一天,我们能拥有自己的芯片,首先用于训练一些简单的东西,然后最终训练这些真正的大型模型。与此同时,我想说的是,这个项目进展得相当顺利,我们只是在有条不紊地推出它,我们有一个长期的路线图。


七.如果担任 Google+ CEO
Dwarkesh Patel:最后一个问题,可能有点突兀。如果你成为 Google + 的 CEO,你认为能够扭转局面吗?
Mark Zuckerberg:Google+?这个问题真的很难回答,因为这涉及到很多假设的情况。

Dwarkesh Patel:好吧,真正的最后一个问题:当 Gemini 项目启动时,有人在办公室提到过 “迦太基必须毁灭” 这句历史名言吗?

Mark Zuckerberg:没有,我们现在的风格更加温和了。这确实是个好问题。但实际上 Google + 并没有一个独立的 CEO,它只是公司中的一个部门而已。你之前问到的是关于资源最为稀缺的问题,但你是从金钱的角度出发的。我认为对于大公司来说,最稀缺的其实是专注。初创企业可能更多受到资金的限制,他们只专注于一个点子,资源可能不足。但一旦跨过某个门槛,就会同时推进多个项目,虽然创造了更多价值,但也更难集中精力确保每件事都做好。

公司内部总会不经意发生一些令人惊喜的事情,而我可能都不知情,这很不错。但总的来说,一个组织的运作能力很大程度上受限于 CEO 和管理团队的监管与管理能力。这一直是我们关注的重点。正如 Ben Horowitz 所说:“保持关注主业”,并尽力专注于核心优先事项。

用户评论