闽公网安备 35020302035485号
堆代码讯 哪怕手握 OpenAI 最大的投资和最深度的合作,微软也没停下自己的 AI 自研脚步。周四,微软旗下的微软 AI 实验室正式宣布推出三款自研基础 AI 模型,覆盖语音转录、语音生成、视频生成三大场景,这标志着微软正在加速搭建自有的多模态 AI 模型体系,在跟 OpenAI 保持合作的同时,也正式下场跟全球的 AI 实验室抢市场。
此次发布的三款模型,各有各的性能亮点:MAI-Transcribe-1 是语音转录模型,能把 25 种不同语言的语音转成文本,处理速度是微软原有 Azure Fast 服务的 2.5 倍,效率提升显著;MAI-Voice-1 则是音频生成模型,它的生成速度堪称惊人 —— 用户每秒就能生成 60 秒的音频,相当于一分钟的语音只需要一秒就能做完,还支持用户创建自定义的语音;而名字带 “Image” 的 MAI-Image-2,其实是一款视频生成模型,早在 3 月 19 日,它就已经率先在微软的 MAI Playground 测试平台上线,接受用户的测试。
目前,这三款模型已经全部上架了微软的 Microsoft Foundry 开发者平台,其中转录和语音模型也同步登陆了 MAI Playground,开发者可以直接调用使用。值得注意的是,这三款模型都来自微软全新的 MAI 超级智能团队 —— 这个由微软 AI 首席执行官穆斯塔法・苏莱曼领导的研究团队,直到 2025 年 11 月才正式组建对外公布,短短半年时间就拿出了三款成熟的基础模型,研发速度堪称迅猛。
有意思的是,哪怕推出了直接对标 OpenAI 的自研模型,苏莱曼还是重申了微软跟 OpenAI 的合作承诺。不过他也透露了一个关键信息:近期微软和 OpenAI 刚刚重新谈判了双方的合作关系,正是这次重新谈判,让微软终于能放开手脚,开展自己的超级智能研究。这也从侧面说明,此前双方的合作协议,很可能对微软的自研业务有所约束,而随着新协议的落地,微软终于能在合作之外,推进自己的 AI 布局了。