Mistral 发布全新开源语音生成模型可用于语音AI助手-堆代码网

Mistral 发布全新开源语音生成模型可用于语音AI助手

发布于 2个月前
 176 热度

 0 评论

春风不醉
0 粉丝 52 篇博客

堆代码讯法国人工智能公司 Mistral 于周四发布了一款全新的开源文本转语音模型，可用于语音 AI 助手，以及客户服务等企业级场景。该模型能帮助企业打造用于销售和用户互动的智能语音代理，也让 Mistral 直接与 ElevenLabs、Deepgram、OpenAI 等厂商展开竞争。这款名为Voxtral TTS的新模型支持9 种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

“我们的客户一直希望我们推出语音模型。因此我们打造了一款轻量级语音模型，可在智能手表、智能手机、笔记本电脑等边缘设备上运行。它的成本仅为市面上其他产品的零头，却能提供顶尖水准的表现。”Mistral AI 科学运营副总裁皮埃尔・斯托克在接受记者电话采访时表示。

Mistral 称，这款新模型仅需不到 5 秒的语音样本，即可克隆并适配自定义音色，还能捕捉细微口音、语调、抑扬顿挫以及自然的语音停顿等特征。该模型基于 Ministral 3B 构建，可在不同语言间轻松切换，同时保留原有音色特征，非常适合配音、实时翻译等场景。斯托克表示，公司希望模型听起来像真人说话，而非机械音。
公司表示，该模型专为实时性能优化：
1.对于一段 500 字符、时长 10 秒的样本，首音响应时间（TTFA）仅 90 毫秒；
2.实时率（RTF）达到 6 倍，意味着生成一段 10 秒的语音片段仅需约 1.6 秒。

今年早些时候，Mistral 曾推出两款转录模型，一款用于大批量处理，另一款用于低延迟实时场景。随着新语音模型的发布，该公司有望为企业提供一整套完整的语音产品矩阵。“我们计划打造一个端到端平台，能够处理音频、文本、图像等多模态输入与输出。其核心优势在于，支持语音输入输出的端到端智能体系统能带来更丰富的信息。” 斯托克说。

Mistral 的核心定位是：凭借开源与高度可定制化的优势，帮助企业更灵活地选用其语音模型，而非竞争对手的产品，因为企业可按自身需求对模型进行微调。

 用户评论

IT那些事
 348 成员 |  4699 话题
+我要提问 +随便写写

可能感兴趣的话题

Rivian首批R2 SUV正式交付，逆势突围美国电动车市场

iOS 27代码实锤佐证苹果折叠iPhone或如期秋季正式发布

苹果更新App Store审核指南：老旧低质应用或将下架

企业AI投入持续飙升数据显示人力成本仍高于AI支出