闽公网安备 35020302035485号
堆代码讯 企业级 AI 公司 Cohere 于周四推出其首款语音模型 Transcribe,这是一款开源自动语音识别模型,可用于笔记生成、语音分析等场景。该模型体量相对轻量化,仅 20 亿参数,支持在消费级 GPU 上独立部署。目前已支持 14 种语言:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。
Cohere 表示,在 Hugging Face 开源语音识别榜单中,Transcribe 表现超越了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型,平均词错误率(WER)仅 5.42,为该基准测试中最低水平。该公司称,在人工评估中,由人类评测员从准确率、连贯性和实用性打分,Transcribe 平均胜率达到 61%;不过在葡萄牙语、德语和西班牙语转录上,该模型略逊于竞品。
Cohere 还提到,Transcribe 每分钟可处理 525 分钟时长的音频,在同级别模型中处于较高水平。该公司计划将 Transcribe 集成到其企业智能体编排平台 North 中,并通过官方 API 免费开放 模型调用能力,同时也会在 Cohere 托管推理平台 Model Vault 上提供服务。随着笔记、听写类应用(如 Granola、Wispr Flow)需求攀升,语音识别模型正变得越来越受欢迎。