堆代码讯 法国人工智能公司 Mistral 于周四发布了一款全新的开源文本转语音模型,可用于语音 AI 助手,以及客户服务等企业级场景。该模型能帮助企业打造用于销售和用户互动的智能语音代理,也让 Mistral 直接与 ElevenLabs、Deepgram、OpenAI 等厂商展开竞争。这款名为Voxtral TTS的新模型支持9 种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
“我们的客户一直希望我们推出语音模型。因此我们打造了一款轻量级语音模型,可在智能手表、智能手机、笔记本电脑等边缘设备上运行。它的成本仅为市面上其他产品的零头,却能提供顶尖水准的表现。”Mistral AI 科学运营副总裁皮埃尔・斯托克在接受 记者电话采访时表示。
Mistral 称,这款新模型仅需不到 5 秒的语音样本,即可克隆并适配自定义音色,还能捕捉细微口音、语调、抑扬顿挫以及自然的语音停顿等特征。该模型基于 Ministral 3B 构建,可在不同语言间轻松切换,同时保留原有音色特征,非常适合配音、实时翻译等场景。斯托克表示,公司希望模型听起来像真人说话,而非机械音。
公司表示,该模型专为实时性能优化:
1.对于一段 500 字符、时长 10 秒的样本,首音响应时间(TTFA)仅 90 毫秒;
2.实时率(RTF)达到 6 倍,意味着生成一段 10 秒的语音片段仅需约 1.6 秒。
今年早些时候,Mistral 曾推出两款转录模型,一款用于大批量处理,另一款用于低延迟实时场景。随着新语音模型的发布,该公司有望为企业提供一整套完整的语音产品矩阵。“我们计划打造一个端到端平台,能够处理音频、文本、图像等多模态输入与输出。其核心优势在于,支持语音输入输出的端到端智能体系统能带来更丰富的信息。” 斯托克说。
Mistral 的核心定位是:凭借开源与高度可定制化的优势,帮助企业更灵活地选用其语音模型,而非竞争对手的产品,因为企业可按自身需求对模型进行微调。