• 谷歌新AI听写工具:离线也能润色语音,悄悄抢了第三方的生意
  • 发布于 3小时前
  • 7 热度
    0 评论
  • 凝晨
  • 0 粉丝 41 篇博客
  •   

在 AI 驱动的听写工具成为新风口的当下,谷歌终于正式下场了。周一,谷歌悄然在 iOS 平台上线了一款名为 Google AI Edge Eloquent 的离线优先听写应用,正式加入了 Wispr Flow、SuperWhisper 等产品的竞争队列,试图用自己的大模型能力,抢占语音转文字的用户市场。


离线优先,AI 帮你把口语直接转成专业文本

这款新上线的应用可以免费下载,核心的亮点就是它的离线优先设计。应用内置了基于 Gemma 的自动语音识别模型,用户只需要提前把模型下载到手机里,就算没有网络,也能直接开始语音听写,完全不依赖云端服务。在使用的过程中,应用会实时展示语音的转录文本,你可以一边说话一边看到文字的生成。当你点击暂停结束录音后,应用会自动帮你处理文本:它会自动过滤掉说话时的 “嗯”“啊” 这类填充词,还会删掉你说话时的自我纠正内容,直接帮你润色出干净通顺的文本,而不是像传统听写工具那样,逐字生硬地记录所有的口语内容。

不仅如此,应用还提供了一键文本转换的功能。转录完成后,你可以在文本下方选择 “要点”“正式”“简洁”“详细” 这几个不同的模式,一键把你的口语转换成你需要的格式:写工作邮件就选 “正式” 模式,整理会议纪要就选 “要点” 模式,完全不用自己再手动修改。隐私方面,这款应用也做了充分的考虑:你可以完全关闭云端模式,所有的语音处理都在你自己的手机本地完成,不用担心你的语音数据被上传。当然,如果你想要更好的文本优化效果,也可以开启云端模式,这时候应用会调用谷歌云端的 Gemini 大模型,来做更深度的文本清理。


为了让转录更准确,应用还支持个性化的词汇适配:它可以从你的 Gmail 账户里,导入你常用的姓名、专业术语这类关键词,避免转录的时候把这些专属词汇写错;你也可以自己添加自定义的行业行话,进一步提升转录的准确率。除此之外,应用还会保存你所有的转录会话历史,支持对所有历史记录进行搜索,方便你随时查找之前的听写内容。它还会统计你的听写数据,比如上一次会话的词汇量、每分钟的听写字数、总听写字数,帮你了解自己的输入效率。

正如应用在 App Store 的描述中写的那样:“Google AI Edge Eloquent 是一款先进的听写应用,旨在弥合自然语音与专业、可直接使用的文本之间的鸿沟。与逐字记录结巴和填充词的标准听写软件不同,Eloquent 利用人工智能捕捉你的意图含义,输出干净、准确的文字。”


不止 iOS,安卓版要做系统级的全局听写
虽然目前这款应用仅在 iOS 平台上线,但从 App Store 的描述中,已经透露出了谷歌对安卓版本的规划。应用的介绍中明确提到了 Android 版本的功能:它将支持 “无缝的 Android 集成”,用户可以把它设置为系统的默认键盘,这样一来,不管你在哪个应用的文本输入框里,都能直接调用它的听写功能,实现真正的系统级全局访问。除此之外,安卓版还会支持悬浮按钮功能,就像 Wispr Flow 在安卓平台的设计一样,用户可以在任何界面,通过悬浮按钮快速启动听写,不用切换应用就能随时开始转录。


AI 听写成新风口,谷歌下场补全 AI 布局

随着语音转文字大模型的不断进步,AI 驱动的听写应用正在成为越来越受欢迎的工具。此前,Wispr Flow、SuperWhisper、Willow 这类第三方听写应用,已经收获了大量的用户,不少职场人、创作者都在用这类工具,来提升记笔记、写内容的效率。


而谷歌这次悄然上线的这款实验性应用,正是正式加入了这个赛道的竞争。凭借自己在 Gemma、Gemini 大模型上的技术积累,还有本地 + 云端混合的处理方案,谷歌试图在这个新的风口里,抢下属于自己的市场。如果这次的测试顺利,未来我们很可能会看到谷歌把这些强大的听写功能,整合到安卓系统或者 Gboard 键盘这类核心产品里,让所有用户都能用上更智能的语音输入能力。
用户评论