闽公网安备 35020302035485号
堆代码讯 近日,语音 AI 赛道头部企业 Speechify 正式推出 Windows 原生客户端,为 Windows 生态的用户带来了全场景的本地语音能力,也标志着该公司完成了主流平台的全栈布局,正式向跨平台语音工具市场发起全面冲击。不同于不少依赖云端处理的同类工具,这款新客户端依托本地存储的 AI 模型,无需上传用户数据即可完成语音相关的全部运算,既保障了隐私安全,也能实现更流畅的离线使用体验。依托这套本地能力,软件可实现跨应用的听写输入,用户无需切换软件就能完成语音转文字的录入;同时还能调用平台内置的语音库,为文章、文档乃至 PDF 文件提供流畅的朗读服务,覆盖阅读、录入两大核心语音场景。
Speechify 方面介绍,这款客户端的本地处理能力可适配两类 Windows 设备:一类是搭载了 AMD、英特尔、高通 NPU 的微软 Copilot + 定制 PC,另一类则是配备英特尔、AMD 独立显卡的 Windows 11 电脑,覆盖了当前主流的高性能 Windows 设备,确保本地模型可以流畅运行。为了支撑全场景的语音能力,客户端内置了三大本地运行的 AI 模型:负责语音合成的神经文本转语音模型、用于识别语音起止的实时语音活动检测模型,以及基于 OpenAI Whisper 技术的语音转文字模型。
同时为了兼顾灵活性,用户也可以自主切换至云端模型,甚至在使用过程中随时调整模型配置,适配不同的使用需求。除此之外,其搭载的 VITS 神经语音技术支持七档语速调节,方便用户根据自己的节奏调整朗读速度;语音活动检测则采用了开源的 Silero 模型,保障识别的精准度。随着语音生产力工具的走红,当前赛道已经涌入了不少玩家,Wispr Flow、Willow、Superwhisper 等厂商都推出了跨平台的听写与转录工具,Speechify 此次推出 Windows 客户端,正是要在这个快速增长的市场中,凭借全平台的能力和本地处理的优势,抢占更多的市场份额。
Speechify 创始人兼首席执行官克利夫・魏茨曼在声明中提到,Windows 系统拥有全球超十亿的用户基数,这也是该公司此次发力 Windows 端的核心原因。“我们希望打破阅读与文字输入的壁垒,无论用户使用何种设备、偏好何种办公方式,都能顺畅使用我们的服务。” 他同时提到,此前已经有大量职场用户呼吁推出 PC 端的 Speechify,这也让公司格外看好这款产品在企业办公领域的应用前景。
事实上,Speechify 已经在加速完善自身的功能矩阵。上个月,该公司刚刚上线了类似 Granola 的会议转录功能,但当时该功能仅支持浏览器端的会议场景。随着 Windows 原生客户端的落地,官方透露,未来计划将这一会议转录功能迁移至原生客户端,届时用户将可以在任意软件、浏览器中完成会议的实时转录,彻底打破场景的限制。