美国知名的商业分析师 Ben Thompson 最近采访了萨提亚·纳德拉,采访中萨提亚·纳德拉讨论了 AI 领域的垂直整合与模块化问题,指出 Google 与 Apple 类似,采取了垂直整合的策略,而其他公司如 AWS 和 Meta 则倾向于模块化。文章中还分析了不同大型科技公司在 AI 领域的战略,包括 Google 的整合优势、AWS 的商品化假设、微软的中间立场、Nvidia 的技术护城河以及 Meta 的开源策略。
同时,探讨了 AI 或 AGI 的潜力,以及这些战略如何影响未来的计算领域和企业竞争。最后 Ben Thompson 表示模型的差异会越来越小,建立平台才是最有价值的。我们一起来看下具体内容。
萨提亚·纳德拉在上周的 Stratechery 采访中,对关于 Google 和 AI 的问题作出了回应:我认为总是有公司可以进行垂直整合。我总是回顾,有一种是 Gates/Grove 模式(安迪-比尔定律),然后我们可以称之为 Apple 或者新 Google 模式,这是一种垂直整合模式。我认为两者都有其应用价值。
英国著名经济学家罗纳德·科斯是最早探讨整合与模块化(Modularization)问题的经济学家之一,他在其开创性的论文《企业的本质》中得出结论:当我们考虑企业应多大时,边际原理就会顺利地发挥作用。这个问题始终是,在组织权威下增加额外交易要付出代价吗?在边际点上,在企业内部组织交易的成本或是等于在另一个企业中的组织成本,或是等于由价格机制组织这笔交易所包含的成本。
著名作家、商业顾问克里斯坦森把整合与模块化的分析从经济学扩展到更难以量化的创新领域。他在《创新者的解答》中提到:当存在性能差距 —— 当产品功能和可靠性尚不足以满足特定市场层次客户的需求时,公司必须通过制造尽可能最好的产品来竞争。
在这个过程中,构建其产品围绕专有、相互依赖架构的公司相比那些产品架构是模块化的竞争对手,享有重要的竞争优势,因为模块化中的标准化会使工程师失去太多的设计自由度,无法充分优化性能。为了缩小每一代新产品的性能差距,竞争力量迫使工程师以越来越高效的方式将系统的各部分组合在一起,以便从现有技术中榨取最大的性能。
当公司必须通过制造尽可能最好的产品来竞争时,他们不能简单地组装标准化组件,因为从工程的角度来看,接口标准化(意味着更少的设计自由度)会迫使他们远离技术前沿。如果产品不够好,放弃最好的可能会导致落后。竞争专有、相互依赖架构的公司必须是整合的:他们必须控制系统每个关键组件的设计和制造,以便制作系统的每个部分。
举个例子,在大型机计算机行业的早期,当功能和可靠性尚不足以满足主流客户的需求时,你不可能作为大型机计算机的独立合同制造商存在,因为机器的设计方式取决于制造过程中使用的技术,反之亦然。设计与制造之间没有清晰的界面。同样,你也不可能作为大型机行业的独立操作系统、核心内存或逻辑电路供应商存在,因为这些关键子系统也必须相互依赖和迭代设计。”
我在 2013 年的《What Clayton Christensen Got Wrong》中也对这一文献作出了贡献。我的争论不在于上面的摘录,而是在于随后的论点,即集成解决方案最终会超出客户需求并被模块化替代品所取代;基于此,Christensen 经常预测苹果会在智能手机领域失去领先地位,但我认为这不会发生在一个模块化成本超出经济学家测量范围的消费市场:
我对这种垂直整合分析的问题 —— 这正是我在商学院学到的 —— 是唯一考虑的成本是财务成本。但还有其他更难量化的成本。模块化在产品设计和使用体验方面产生的成本无法克服,也无法衡量。
商业买家 —— 以及研究他们的分析师 —— 完全忽略了这些成本,但消费者不会。一些消费者天生了解并重视质量、外观和细节,并愿意支付远远超过垂直整合财务成本的溢价。
这在智能手机和电脑领域被证明是正确的:是的,基于 Windows 的模块化计算机主导了计算机的前 30 年,但今天 Mac 在消费者中占主导地位,这一点微软在 Copilot+ PC 的框架中含蓄的承认了这一点。无论是智能手机还是 PC,都是你手中拿着的物理设备;那么,在 AI 领域,整合在开始时 —— 甚至有时在最后 —— 获胜的假设是否成立?
一.集成与模块化 AI
PC 领域的集成与模块化对比是这样的:

苹果在 1990 年代曾短暂尝试模块化,但几乎让公司破产;最终,他们选择了完全集成到处理器层面,遵循 iPhone 的路径:

这两张图片的相似之处很明显;马克·扎克伯格希望这种模式在头戴式计算机中重现,Meta 作为开放的替代方案。然而,在 AI 领域,正如纳德拉所指出的,Google 是集成的玩家:

Google 在其自有的 TPU 处理器上训练和运行其 Gemini 系列模型,这些处理器仅在 Google 的云基础设施上可用。开发者可以通过 Google 的全托管 AI 开发平台 Vertex AI 访问 Gemini;如果 Vertex AI 类似于 Google 的内部开发环境,这就是 Google 构建其面向消费者的 AI 应用的平台。这一切都是 Google 的,从上到下,并且有证据表明这种集成正在产生效益:Gemini 1.5 业界领先的 200 万 Token 上下文窗口几乎肯定需要 Google 的基础设施团队和模型构建团队之间的联合创新。
另一个极端是 AWS,它没有自己的模型,尽管它有 Titan 系列模型,但主要专注于其 Bedrock 托管开发平台,该平台允许你使用任何模型。Amazon 还专注于开发自己的芯片,尽管其大部分 AI 业务运行在 Nvidia 的 GPU 上。

微软处于中间位置,得益于其与 OpenAI 及其模型的密切关系。去年,微软增加了 Azure Models-as-a-Service,但其对外部客户和内部应用的主要重点一直是基于 OpenAI 的 GPT 模型家族构建;微软还推出了自己的推理芯片,但其绝大多数工作负载运行在 Nvidia 上。

最后是 Meta,它只为自己构建;这意味着最重要的集成点在于应用程序和模型之间;这就是为什么 Llama 3 在优化低推理成本时,即使以较高的训练成本为代价,也这样做。这也意味着 Meta 可以完全跳过托管服务层。

另一个值得强调的公司是 Databricks。Databricks 通过收购 MosaicML 帮助客户在自己的数据上训练自己的 LLM,这些数据当然存储在 Databricks 上,而 Databricks 本身位于超大规模计算平台之上:

Databricks 值得强调,因为其方法对数据的优先考虑;数据和模型是集成的关键点。
二.大型科技公司的影响
Google
从这一分析中得出的第一个结论是,Google 的策略确实独特:正如纳德拉所指出的,他们是 AI 领域的 Apple。更大的问题是这是否重要:正如我上面提到的,集成在(1)消费市场中已被证明是可持续的差异化,因为买家是用户,因此重视来自集成的用户体验优势,并且(2)这些用户体验优势体现在设备中。
Google 确实在为消费者市场构建产品,但这些产品不是设备;它们是互联网服务。而且,你可能已经注意到,历史讨论并没有真正提到互联网。Google 和 Meta,这两个互联网时代的最大赢家,都在商品硬件上构建了他们的服务。当然,这些服务得以扩展是因为两家公司进行了深度的基础设施工作,但即便如此,Google 更为定制化的方法至少已被 Meta 更开放的方法所匹敌。值得注意的是,这两家公司都在集成他们的模型和应用程序,OpenAI 也在用 ChatGPT 这样做。
对 Google 的第二个问题是,他们是否仍然擅长制造产品;苹果之所以如此出色,不仅在于公司是集成的,而且在于它在继续推出突破性的新产品(如 Apple Watch 和 AirPods)时,保持了其卓越标准。这可能是因为销售硬件,每年都必须完美,以证明消费者支付大量资金的合理性,这比作为一个用户免费访问的聚合商更能提供保持卓越和执行的激励结构。
这项分析还突出了 Google 的真正登月计划的潜力:实际上将公司 Pixel 手机作为垂直整合的 iPhone 竞争对手加大力度。引用该文章中的内容:
Google 的一系列登月计划 —— 从 Waymo 到 Google Fiber,再到 Nest、Project Wing、Verily 和 Project Loon(名单还在继续)—— 大多是科学项目,主要是将 Google 搜索的利润从股东那里转移开来。Waymo 可能是最有趣的,但即使成功了,它最终也只是一个汽车服务,与 Google 的使命 “整合全球信息,供大众使用,使人人受益” 相去甚远。
但如果使命本身就是登月计划呢?如果 “我很幸运”(I'm Feeling Lucky)不仅仅是一个简洁主页上的奇思妙想按钮,而是与世界所有信息互动的默认方式呢?如果 AI 助手如此优秀,如此自然,以至于任何拥有无缝访问权限的人都可以随时随地使用它,而无需思考?
不用说,这可能是唯一真正让苹果感到害怕的事情。是的,Android 相对于 iOS 有其优势,但对大多数人来说并不特别重要,即使对于那些关心的人来说 —— 比如我 —— 这些优势也不足以放弃 iOS 总体上更优越的用户体验。推动平台市场份额发生有意义变化的唯一因素是范式转变,虽然我怀疑 Pixie 的 v1 版本(传闻中的 Google 专属 Pixel 的 AI 助手)是否足以驱动 iPhone 用户切换,但至少有一个途径可以做到这一点。
当然,Pixel 需要首先在 Android 领域取胜,这意味着 Google 在市场活动,特别是开设商店、补贴运营商以及增加生产能力方面需要大规模投资。这不会便宜,这就是为什么 Google 尚未真正投资使 Pixel 成为智能手机领域有意义的参与者的原因。
然而,潜在的回报是巨大的:一个到处都有 Pixie 的世界意味着一个 Google 不仅从企业和学校服务中赚钱,还从销售硬件中真正赚钱的世界,以及利用 Google 基础设施向企业提供相同能力的云服务。此外,这是一个 Google 真正整合的世界:公司已经制造了芯片,既用于手机,也用于数据中心,制造了模型,并且拥有世界上最大的数据信息库。
正如我上个月的更新中提到的,Google 最近的重组指向了这一方向,尽管 Google I/O 并未提供任何迹象表明这种战略转变即将到来;相反,重点是新的 AI 驱动搜索体验,不用说,这种体验的结果好坏参半。
事实上,Google 因 AI 回答出错而遭到无情嘲笑,说明了面向消费者的 AI 可能会对公司造成破坏:现有公司发现难以应对颠覆性技术的原因是,因为这些技术在一开始并不足以支撑现有公司的核心业务。时间会告诉我们这是否会推动智能手机战略的转变,或让公司更加犹豫。
企业领域是另一个问题:虽然我对 Google 的企业主张印象深刻,因为它受益于与 Google 基础设施的集成,而无需潜在破坏公司现有产品的所有开销,但要克服数据重力将是一项艰巨的任务,即许多企业客户会发现使用他们已经存储数据的云上的 AI 服务更容易(当然,Google 也支持企业客户使用非 Gemini 模型和 Nvidia GPU)。
在某种程度上,Google 在企业领域的成功可能在于捕获下一代以 AI 为先、定义上数据轻量化的初创公司;新公司可以自由地根据基础设施和集成做出决策。
AWS
Amazon 当然希望这一论点是正确的:该公司在运作时假设 AI 价值链中的一切都是模块化的,最终是商品化的,这意味着它相信数据重力最重要。难以区分的是,这在多大程度上是对战略格局的正确解读,而在多大程度上是对恰好与 Amazon 的优势和劣势完美契合的事实的方便解读,包括高度优化的商品工作负载基础设施。
微软
与此同时,微软正如我上面提到的处于中间位置,但并非完全出于自愿。去年十月在公司财报电话会议上,纳德拉广泛讨论了公司如何围绕 OpenAI 优化其基础设施:我们采取的方法是一个完整的堆栈方法,从 ChatGPT 到 Bing Chat 或我们的所有 Copilot,都共享相同的模型。因此,从某种意义上说,我们所拥有的优势在于我们使用了一个模型进行了训练,然后使用了一个模型进行大规模推理。而这种优势一直传递到内部利用、第三方利用,以及随着时间的推移,你可以看到这种堆栈优化一直传递到硅片,因为开发人员使用的抽象层比底层内核高得多。
因此,我认为我们采取了一种根本性的方法,即技术方法,表示我们将提供 Copilot 和 Copilot 堆栈。这并不意味着我们没有人进行开源模型或专有模型的训练。我们也有一堆开源模型。有很多微调,很多 RLHF(强化学习与人类反馈)正在进行。所以人们使用它的方式各种各样。但问题是,我们有一个经过训练的大模型的规模优势,并且一个大模型正在用于所有第一方 SaaS 应用程序以及我们 Azure AI 服务中的推理……
从云端学到的教训是 —— 我们并不是在运行一个不同业务的联合企业,而是微软整个产品组合的一个技术栈,我认为这将非常重要,因为考虑到 AI 转型的支出情况,任何不对资本支出保持纪律性管理的企业都可能遇到麻烦。
然后,一个月后,OpenAI 几乎崩溃,微软不得不面对这样一个现实,即将战略与一个不受控制的合作伙伴集成是极其危险的;自那以后,公司的许多言论 —— 包括本文开头引用的纳德拉的话 —— 和行动都集中在抽象模型上,特别是通过公司自己的托管 AI 开发平台,这种方法更类似于 Amazon 的方法。我怀疑公司实际上希望更多地倾向于集成,或许仍然如此(包括收购和招聘自己的模型和模型构建团队),但它必须对冲其赌注。
Nvidia
总体来看,我认为这些消息对 Nvidia 来说是利好的。随着 LLM 的崛起,Nvidia 的 CUDA 技术护城河被削弱了;现在 AI 开发的大多数工作已经从使用 CUDA 库转移到了建立在 LLM 之上。这意味着其他 GPU 供应商,如 AMD 或一些大型科技公司的内部研发,更有可能对 Nvidia 的市场主导地位和利润率构成威胁。
但 Nvidia 并未因此停滞不前:公司正在不断提升其 GPU 的灵活性,承诺下一代芯片将会以当前一代的两倍配置出货,并且会更加注重以太网网络。这种策略将扩大 Nvidia 的市场覆盖,带来更多收入,并将这些收入重新投入到快速的产品迭代中,从而保持领先地位。
我认为,至少在短期内,唯一能超越 Nvidia 性能优势的方法是像 Google 那样进行真正的垂直整合;换句话说,虽然 Google 的 TPU 是一个强劲的替代品,但我对其他大型公司的内部芯片研发在短期内构成重大威胁持怀疑态度。在没有全方位整合的情况下,这些努力基本上只是试图制造比 Nvidia 更好的芯片,难度极大!即使是 AMD 也发现其 GPU 销量的一部分是因为 Nvidia 供应不足。
Meta
Meta 采用 Llama 开源策略也是出于类似的考虑:公司专注于产品整合,但也受益于大规模使用,特别是在优化和补充软件方面。开源可以带来这些好处,同时不会削弱 Meta 的产品开发(并且 Meta 从提供 Llama 模型的服务中获得一部分收入)。
三.AI 或 AGI
至于苹果公司,在 AI 领域的布局目前还不明显。与 Amazon 类似,苹果公司似乎也认为 AI 会成为一种功能或应用;但这种观点究竟是出于战略考虑还是其他动机尚不明确。
不过,这引出了一个关键问题:LLM 已经非常出色,还有很多工作需要做以充分发挥其潜力;更好的 LLM 是否有能力不仅颠覆搜索,还能颠覆整个计算领域?如果答案是肯定的,那么 Google 的整合策略将占据优势,因为实现接近 AGI 需要最大化每个环节的效率和优化,这更加依赖于整合策略。
对此,我持保留态度:尽管模型之间会有差异,但差异不会大到无法视为商品的程度;最有价值的将是建立平台,将模型视为处理器,提供性能改进而无需开发者了解底层技术。这意味着最大的收益将来自于水平覆盖 —— 在 API 层、模型层和 GPU 层 —— 而不是垂直整合;Google 需要证明这一点。