• 微软AI推出三款自有模型,要靠低价抢市场?
  • 发布于 1小时前
  • 4 热度
    0 评论

堆代码讯 哪怕手握 OpenAI 最大的投资和最深度的合作,微软也没停下自己的 AI 自研脚步。周四,微软旗下的微软 AI 实验室正式宣布推出三款自研基础 AI 模型,覆盖语音转录、语音生成、视频生成三大场景,这标志着微软正在加速搭建自有的多模态 AI 模型体系,在跟 OpenAI 保持合作的同时,也正式下场跟全球的 AI 实验室抢市场。

此次发布的三款模型,各有各的性能亮点:MAI-Transcribe-1 是语音转录模型,能把 25 种不同语言的语音转成文本,处理速度是微软原有 Azure Fast 服务的 2.5 倍,效率提升显著;MAI-Voice-1 则是音频生成模型,它的生成速度堪称惊人 —— 用户每秒就能生成 60 秒的音频,相当于一分钟的语音只需要一秒就能做完,还支持用户创建自定义的语音;而名字带 “Image” 的 MAI-Image-2,其实是一款视频生成模型,早在 3 月 19 日,它就已经率先在微软的 MAI Playground 测试平台上线,接受用户的测试。


目前,这三款模型已经全部上架了微软的 Microsoft Foundry 开发者平台,其中转录和语音模型也同步登陆了 MAI Playground,开发者可以直接调用使用。值得注意的是,这三款模型都来自微软全新的 MAI 超级智能团队 —— 这个由微软 AI 首席执行官穆斯塔法・苏莱曼领导的研究团队,直到 2025 年 11 月才正式组建对外公布,短短半年时间就拿出了三款成熟的基础模型,研发速度堪称迅猛。


苏莱曼在博客中把团队的方向总结为 “人本主义 AI”:“在微软 AI,我们正在构建人本主义 AI。我们在创建 AI 模型时秉持独特的理念 —— 以人为中心,根据人们实际的交流方式进行优化,并为实际应用而训练。” 他还透露,接下来团队还会推出更多的模型,陆续登陆 Foundry 以及微软的各类消费产品。而在拥挤的大模型市场里,微软给这些自研模型准备的最大杀招,就是低价。微软明确表示,这些模型的定价会低于谷歌和 OpenAI 的同类产品:MAI-Transcribe-1 的起价为每小时 0.36 美元;MAI-Voice-1 的起价为每 100 万个字符 22 美元;视频模型 MAI-Image-2 的文本输入起价为每 100 万个 token5 美元,图像输出则为每 100 万个 token33 美元。在当下大模型玩家纷纷打价格战的节点,微软的入局,无疑会进一步搅动市场的定价格局。


有意思的是,哪怕推出了直接对标 OpenAI 的自研模型,苏莱曼还是重申了微软跟 OpenAI 的合作承诺。不过他也透露了一个关键信息:近期微软和 OpenAI 刚刚重新谈判了双方的合作关系,正是这次重新谈判,让微软终于能放开手脚,开展自己的超级智能研究。这也从侧面说明,此前双方的合作协议,很可能对微软的自研业务有所约束,而随着新协议的落地,微软终于能在合作之外,推进自己的 AI 布局了。


这其实也是微软一贯的战略:不把鸡蛋放在同一个篮子里。在芯片领域,微软既自己研发 Azure Cobalt 这类自研芯片,也同时向英伟达等外部厂商采购芯片;而在 AI 模型领域,微软也采取了完全一样的路线:一边向 OpenAI 投资了超过 130 亿美元,把 OpenAI 的模型部署到自己的所有产品里,另一边也没停下自己的模型研发,两边下注,不管最终哪个路线跑出来,微软都能牢牢握住主动权。如今的 AI 市场,早已是巨头扎堆的红海,微软的这套双轨策略,无疑让它在这场竞争里,拥有了比其他玩家更多的底气。
用户评论