微软的AI野心-duidaima 堆代码

微软的AI野心

发布于 2个月前
 557 热度

 0 评论

荒岛晴空
0 粉丝 29 篇博客

当OpenAI创始人Sam Altman登上微软Build 2024开发者大会的Keynote舞台时，细心的观众不难发现：相比于微软首席技术执行官Kevin Scott眉飞色舞介绍Sam Altman时的神情，Sam Altman的双眉微微低垂，并未像Kevin Scott一样亢奋。

在美国时间5月21日当天长达两个多小时的活动里，Sam Altman对于微软是那样重要，他被安排在整个活动的“压轴”阶段。而OpenAI于5月14日凌晨发布的GPT-4o几乎在微软每一个重大发布时都会被“cue”到。相比于微软的态度，Sam Altman显得淡然许多，他穿着淡棕色T恤、蓝色牛仔裤，全程语气平静。这或许是因为Sam Altman正被场外舆论影响心情，在活动前一天演员Scarlett Johansson针对“OpenAI聊天机器人采用酷似其声音的语音”发表声明，对OpenAI提出质疑。

而在更大的视野中，环顾Sam Altman的“竞争因素”也正在变多。2024年初以来，Google、Meta、Anthropic几家大模型的头部公司先后发布了能力直逼GPT-4的模型，中国的主流AI公司在模型能力方面也都突飞猛进。在AI大模型赛道上，OpenAI虽然仍处在领先位置，但与第二名的差距已开始缩小。但对于微软而言，OpenAI足够重要，甚至可以被视为“战术基石”。

整个Build 2024开发者大会期间，微软的主语境一直是“强调与OpenAI的深度融合，展示各种基于GPT-4o的功能和产品”。如果考虑到，本次微软发布新品的力度，不难看出微软几乎想“搭建”可以和OpenAI深度融合的大生态：微软一口气公布了最新Copilot+PC产品，以及Phi-3-vision、Team Copilot、Copilot Studio等50多项更新，几乎每3分钟便公布一个更新。

猛然看去微软在Build大会上发布的产品、技术更新，表面上看与2023年中的AI动作差别不大，仍是聚焦Copilot。但细看之下会发现，与OpenAI的高调合作其实已经成为微软的“明修栈道”，微软真正的战略重点正在向AI应用产品转移。微软是要用Copilot，AI PC这些产品，以及产品构筑的生态，打造一套不管换什么AI大模型都能快速形成产品竞争力的AI模式，从而将AI沉淀成自身的竞争力。

躲在OpenAI影子里的微软小模型
从微软最新的发布看，与OpenAI的进一步融合，首先可以让其强化“系统市场”基本盘。此前OpenAI的GPT-4o发布会上，提到了会推出ChatGPT的桌面产品，不过这款产品上线后，却只能支持M芯片的MacOS。虽然OpenAI没有为微软开发桌面产品，但GPT-4o的能力在Windows端被直接融入了系统。有分析人士向虎嗅表示，相对于以App形式出现在Mac中，OpenAI在微软产品中的体验或会更顺滑。

微软在GPT-4o的集成方面比苹果更具优势，但与此前的Microsoft 365 Copilot不一样，GPT-4o并非微软独占。摆在微软面前的挑战是，如果不做出上述“防守动作”，随着OpenAI“摇摆程度加大”，微软在系统市场的压力有可能变大。如果未来Windows中的OpenAI能力也能迁移到苹果系统，那么微软在PC和操作系统市场中的竞争力很可能出现下滑。

目前Mac OS的市场份额在16%左右。不过，IDC称2024年第一季度Mac电脑的出货量增长了14.8%，成为五大个人电脑制造商中增长最快的公司。随着Mac出货量上涨，苹果系统对微软亦开始形成威胁。反观微软，Windows约占全球桌面操作系统市场60%-70%的份额，但微软的PC产品Surface在全球市场中的占比并不高，且在过去一年中出现持续下滑，2024年第一季度Surface销量下降了17%，在Build大会公布Copilot+PC产品之前，分析师普遍认为这种衰退可能会持续到下一季度。

一味依赖OpenAI显然不是微软想要的，它渴望在Windows、Surface中构建独特的AI能力，从而给传统优势业务更大的“确定性”。OpenAI没关注到的轻量化AI“小”模型，是微软的一步明棋。目前市场上的主流厂商普遍认为，超大规模的AI模型不能完全满足设备端的AI需求，当下最好的AI硬件应该是端云结合的。云端模型通常会选择类似GPT-4o的通用能力较强的超大参数模型，而端侧则会选择轻量化的“小”模型，这也正是微软一直以来的发力方向。

2023年6月，微软首次发布了轻量化语言模型Phi-1。到2024年4月，微软将这款模型更新到了Phi-3，其中包括3款模型：参数量为38亿的Phi-3-mini；参数量为70亿Phi-3-small；参数量为140亿Phi-3-medium。轻量化模型对于算力和能耗的需求更低，也更适合本地化运行。微软在Build大会期间更新的Windows Copilot Runtime中就包括一组API，由Windows附带的40多个端侧AI模型提供支持，其中包括专为Copilot+ PC中的NPU设计的轻量化模型Phi-Silica，可以用于智能搜索、实时翻译、图像生成和处理等任务。

Phi-Silica基于NPU进行推理，首个token的输出速度为650 tokens/s，耗电量约1.5瓦，后续生成速度为27 tokens/s。由于推理在NPU完成，CPU和GPU可以同时处理其他计算任务。目前，在UC伯克利的lmsys大语言模型排位赛中，2023年10月推出的phi-3-mini-4k-instruct版本，模型排位已经超越了GPT-3.5-turbo-1106。

不过，在Phi-3-medium的一些开源测试中，有开发者反馈其处理复杂编程问题，中文处理能力亦不理想。在复杂任务和通用性方面存在局限是轻量化模型普遍存在的问题，这就需要云端大模型的配合。但模型参数量较小，训练调优的成本更低、效率更高，也可以专门为特定任务训练特定模型。

Phi-3除了具备三款语言模型之外，在Build大会上还公布了多模态模型Phi-3-vision。Phi-3-vision拥有42亿参数，目前处于预览阶段，能够执行如图表或图像相关的常规视觉推理任务。除轻量化模型以外，为了尽力克制自己对OpenAI的“依赖程度”，微软也在投重注“升级”超大规模AI模型的研发团队，持续加码大模型的研发。

在过去几个月中，微软斥资6.5亿美元收购了明星AI初创公司Inflection的大量知识产权，并从该公司挖走了一批员工，包括三位联创中的两位，首席科学家Karén Simonyan和首席执行官Mustafa Suleyman。如今有外媒报道称，这些人正在微软内部研发一款名为MAI-1的5000亿参数规模的大语言模型，为日后替代OpenAI做准备。

简言之，当下微软的战术思路是：在大模型+小模型的策略中，将不同模型搭配一处。这种模式看似符合大模型行业趋势，但其中也存在一些隐忧。比如，多模型的配合问题。在未来的AI PC、Windows环境，或是其他客户场景中，可能会因为模型不同增加功能或系统集成的复杂性，尤其是在跨平台或跨系统的应用中。

同时，这种模式在开发和运维阶段可能需要更多的成本，不同模型之间的性能和响应时间也不一致，在需要高度同步的应用场景中，这种不一致性将大大影响用户体验，并增加优化的难度。

更麻烦的是，由于模型来自不同的开发者和平台，可能会导致模型的生态系统产生割裂。开发者和用户，可能需要在多个平台和工具之间来回切换，从而增加了学习成本和使用难度。不过，这种模式也有好处。微软和OpenAI分别训练不同参数量的模型（超大规模和轻量化），则两家公司可以在各自的架构上进行独立优化。这样虽然需要分别投入资源，但可以针对不同的应用场景进行更有针对性的训练，可能会在特定领域中更加高效。

芯片梦，少不了OpenAI？
除了要用好OpenAI的模型能力，微软也正试图借力OpenAI摆脱英伟达的“控制”。2023年底，微软正在研发的AI芯片Maia 100首次曝光。到2024的Build大会上，微软正式宣布了自研芯片Azure Maia 100和Cobalt 100芯片的最新信息。目前，这两款芯片中的CPU芯片Cobalt 100已经开始向Azure云计算服务的客户提供预览版。除了自研芯片外，微软也在尝试搭建不依赖于NVIDIA的服务器架构。

3月29日，微软刚刚被爆出正在与OpenAI合作开发价值1000亿美元的AI超级计算机“星际之门”。据外媒报道，星际之门的关键特性之一就是不受限于NVIDIA显卡，在Stargate超级计算机中很可能不会使用NVIDIA专有的InfiniBand线，而是使用同样以太网线。虽然谷歌，亚马逊，甚至是中国的很多厂商都在自研AI芯片，但相对来说，Google和微软的优势更加明显。

谷歌在上周的Google I/O大会上宣布了最新的六代TPU（Tensor Processing Unit）。TPU在Google中的应用，相对于GPU具有一定的优势。一方面，TPU与Gemini同根同源，不管是基于模型优化芯片，还是基于芯片优化模型，都可以在公司内部“消化”。

另一方面，TPU在处理深度学习任务，特别是大规模矩阵运算方面表现出色。由于Transformer架构依赖于大量的矩阵乘法和点积运算，TPU的设计非常适合这种计算模式。谷歌自第四代TPU开始，进一步优化了其硬件和软件，使其更高效地支持Transformer模型，比如BERT和GPT系列。

不过，GPT模型主要用到的深度学习框架是Pytorch，而Google的很多AI项目主要使用的TensorFlow框架，在模型优化方面也可能存在一些适配问题。微软的优势则在于与OpenAI的紧密合作。在研发AI芯片的过程中则可能会与OpenAI更加紧密配合，从而获得更有价值的提升。不过，想彻底逃离英伟达的强势状态恐非易事。

当地时间5月22日，在英伟达2025财年一季报的电话会上，该公司CEO黄仁勋透露，Blackwell架构之后还将继续推出新芯片，还将加快芯片架构更新速度，从两年更新一次，加速至一年一更。黄仁勋说：“我们将以非常快的速度全面推进。新的CPU、新的GPU、新的网络网卡、新的交换机，大量芯片正在路上。”

在4月的英伟达GTC大会上，微软和英伟达共同宣布了Azure将成为首批引入NVIDIA Grace Blackwell GB200以及NVIDIA Quantum-X800 InfiniBand的云服务商。近日有外媒报道称，AWS已经开始用英伟达最新的Grace Blackwell架构芯片订单代替之前订购的Grace Hopper芯片。由此推断，作为首批云服务商的Azure，很可能也正在开展大规模换芯工程。虽然主流AI公司和云厂商都在高喊与英伟达紧密合作，但他们也同时在加速AI芯片、算力的研发。

与Google优先争夺开发者？
在Build 2024开发者大会上，微软下出的另外几步棋，更似似剑指Google。过去一年中，Google在模型能力和AI产品方面一直呈现追赶态势，但在最近的GoogleI/O上，Google更新的AI功能看起来似乎比微软的一系列Copilot更炫酷、更有吸引力。针对这一点，微软的思路是“优先稳固住开发者”。

微软在本次Build大会中推出了Copilot Studio功能，允许用户创建自定义的Copilot，作为AI Agents独立工作。微软将Windows Copilot Runtime融入了Windows Copilot堆栈，以内置AI驱动系统革新，加速开发者在Windows平台上的AI开发进程。微软还推出了Windows语义索引提升了Windows搜索体验，引入Recall等新功能。且还会利用Vector Embeddings API给Windows的应用提供矢量存储与RAG功能。

同时，微软还推出了可以直接在Windows上运行DirectML、PyTorch及Web神经网络的功能。开发者可以直接调用Hugging Face模型库，基于NPU加速任务处理。DirectML作为Windows核心低层API，是与DirectX相似的产品，专为机器学习优化，兼容多硬件平台，包括GPU、NPU，未来还将集成CPU。它与ONNX Runtime、PyTorch、WebNN等框架无缝对接，推动AI技术应用。

这几步明棋，其实都是微软试图通过AI生态工具，巩固其在开发者生态中的技术地位，如同DirectX巩固了微软在图形处理中的主导地位，DirectML也可能在机器学习领域产生类似的效果。对于开发者来说，如今的Copilot战略核心在于通过建立一个开放且高度融合的生态系统，将AI的力量渗透到每一个开发环节和应用场景中，从而以增强AI生态的形式，固化AI应用能力。

除了个人Copilot，微软还着重强调了Team Copilot。

在GPT-4的加持下，微软是最早在办公软件中提出Copilot概念的公司之一。此次更新的Team Copilot主要功能包括：会议主持人，通过管理议程和记录会议笔记，使会议讨论更加高效；小组协作，帮助团队成员从聊天中提取重要信息，跟踪行动项目，并解决未解决的问题；项目经理，创建和分配任务，跟踪截止日期，通知团队成员需要输入的时间，确保项目顺利进行。

这三大主要功能与Google I/O大会上刚刚提过的的“数字员工”几乎重叠。

而更有价值的是，微软允许企业和开发者构建AI驱动的Copilot，这些Copilot可以像虚拟员工一样自动执行任务。这一改变意味着Copilot不仅仅是被动等待查询的工具，它将能够执行如监控电子邮件收件箱、自动化数据录入等一系列通常由员工手动完成的任务。

此外，微软的Copilot Connectors功能可以为企业实现数据的无缝结合，且支持多种数据源的整合，如公共网站、SharePoint、OneDrive、Microsoft Dataverse表、Microsoft Fabric OneLake和Microsoft Graph等。这使得Copilot能够利用丰富的数据资源，提供更为精准和个性化的服务，进一步增强了其在企业应用中的价值。

微软目前正在向一小部分早期访问测试者预览这一新功能，并计划在2024年晚些时候在Copilot Studio中进行公开预览。企业将能够创建一个处理IT帮助台服务任务、员工入职等任务的Copilot代理。微软在一篇博客文章中表示：“Copilots正在从与你一起工作的助手演变为为你工作的助手。”

相比于Google上周提到的AI Teammate，微软的Copilot Studio似乎能提供更高的灵活性。允许企业根据自身需求定制Copilot，使其能够执行特定的业务流程。自定义的灵活性使企业能够更好地利用Copilot来提升业务效率。但也可能设置了较高的使用门槛。谷歌的优势则在于借助于Google Cloud和Google的搜索引擎技术，Gemini能够高效地处理和分析大量数据，提供精准和实时的业务洞见。

企业对AI技术的依赖程度增加，也可能导致对技术提供商（如微软）的高度依赖。不过，目前两家都是要深度融合自身办公软件生态以及云业务，拼到最后，可能还是要卷价格。

结语
与OpenAI的绑定，目前仍是微软的重要竞争力，但微软已经开始思考如何减少对外部的依赖。从投资自研AI芯片到优化用户体验，微软着力于解决技术落地的实际难题，寻求在通用性和个性化需求间找到平衡点。通过跨行业合作与自家产品线的AI集成，微软旨在深化其在各领域的影响力并拓宽业务范围，同时促进办公软件及云服务的智能化升级。

AI技术的深度整合与定制化服务，如Copilot Studio和Team Copilot等也在推动微软巩固并扩展其在开发者和企业市场的影响力，将AI从辅助工具转变为驱动业务的核心动力。

微软一系列产品整合的产物，正是当下市场的大势AI PC，这也正是微软为了最大的机会。基于模型能力，操作系统的天然优势，以及生态中沉淀的AI应用产品，微软的AI PC相对于其他市场中已有的PC产品几乎是最易成功的。然而，微软的多模型策略与生态构建也并非坦途，仍要面临模型协同、成本控制及生态系统割裂等一系列挑战。

 用户评论

AI大模型
 107 成员 |  702 话题
+我要提问 +随便写写

可能感兴趣的话题

Claude AI现支持在聊天界面内直接使用 Slack、Figma 与 Canva

Perplexity新增AI购物功能并集成PayPal结账服务

Anthropic重磅研究：只需250个文档，就能给任意大模型投毒

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2