• Cohere发布首款开源语音转录模型Transcribe 支持14 种语言
  • 发布于 1小时前
  • 5 热度
    0 评论
  • 乌龙山
  • 1 粉丝 58 篇博客
  •   

堆代码讯 企业级 AI 公司 Cohere 于周四推出其首款语音模型 Transcribe,这是一款开源自动语音识别模型,可用于笔记生成、语音分析等场景。该模型体量相对轻量化,仅 20 亿参数,支持在消费级 GPU 上独立部署。目前已支持 14 种语言:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。


Cohere 表示,在 Hugging Face 开源语音识别榜单中,Transcribe 表现超越了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型,平均词错误率(WER)仅 5.42,为该基准测试中最低水平。该公司称,在人工评估中,由人类评测员从准确率、连贯性和实用性打分,Transcribe 平均胜率达到 61%;不过在葡萄牙语、德语和西班牙语转录上,该模型略逊于竞品。


Cohere 还提到,Transcribe 每分钟可处理 525 分钟时长的音频,在同级别模型中处于较高水平。该公司计划将 Transcribe 集成到其企业智能体编排平台 North 中,并通过官方 API 免费开放 模型调用能力,同时也会在 Cohere 托管推理平台 Model Vault 上提供服务。随着笔记、听写类应用(如 Granola、Wispr Flow)需求攀升,语音识别模型正变得越来越受欢迎。


据报道,今年早些时候 Cohere 向投资者透露,公司 2025 年年度经常性收入达到 2.4 亿美元;其首席执行官艾丹・戈麦斯(Aidan Gomez)也表示,这家初创公司可能 “很快” 启动上市。
用户评论