Cohere发布首款开源语音转录模型Transcribe 支持14 种语言-堆代码网

Cohere发布首款开源语音转录模型Transcribe 支持14 种语言

发布于 2个月前
 238 热度

 0 评论

乌龙山
1 粉丝 60 篇博客

堆代码讯企业级 AI 公司 Cohere 于周四推出其首款语音模型 Transcribe，这是一款开源自动语音识别模型，可用于笔记生成、语音分析等场景。该模型体量相对轻量化，仅 20 亿参数，支持在消费级 GPU 上独立部署。目前已支持 14 种语言：英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere 表示，在 Hugging Face 开源语音识别榜单中，Transcribe 表现超越了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型，平均词错误率（WER）仅 5.42，为该基准测试中最低水平。该公司称，在人工评估中，由人类评测员从准确率、连贯性和实用性打分，Transcribe 平均胜率达到 61%；不过在葡萄牙语、德语和西班牙语转录上，该模型略逊于竞品。

Cohere 还提到，Transcribe 每分钟可处理 525 分钟时长的音频，在同级别模型中处于较高水平。该公司计划将 Transcribe 集成到其企业智能体编排平台 North 中，并通过官方 API 免费开放模型调用能力，同时也会在 Cohere 托管推理平台 Model Vault 上提供服务。随着笔记、听写类应用（如 Granola、Wispr Flow）需求攀升，语音识别模型正变得越来越受欢迎。

据报道，今年早些时候 Cohere 向投资者透露，公司 2025 年年度经常性收入达到 2.4 亿美元；其首席执行官艾丹・戈麦斯（Aidan Gomez）也表示，这家初创公司可能 “很快” 启动上市。

 用户评论

IT那些事
 348 成员 |  4699 话题
+我要提问 +随便写写

可能感兴趣的话题

Rivian首批R2 SUV正式交付，逆势突围美国电动车市场

iOS 27代码实锤佐证苹果折叠iPhone或如期秋季正式发布

苹果更新App Store审核指南：老旧低质应用或将下架

AI告别规模至上，低成本小模型掀起产业大变局