谷歌新AI听写工具：离线也能润色语音，悄悄抢了第三方的生意-堆代码网

谷歌新AI听写工具：离线也能润色语音，悄悄抢了第三方的生意

发布于 2个月前
 226 热度

 0 评论

凝晨
0 粉丝 43 篇博客

在 AI 驱动的听写工具成为新风口的当下，谷歌终于正式下场了。周一，谷歌悄然在 iOS 平台上线了一款名为 Google AI Edge Eloquent 的离线优先听写应用，正式加入了 Wispr Flow、SuperWhisper 等产品的竞争队列，试图用自己的大模型能力，抢占语音转文字的用户市场。

离线优先，AI 帮你把口语直接转成专业文本

这款新上线的应用可以免费下载，核心的亮点就是它的离线优先设计。应用内置了基于 Gemma 的自动语音识别模型，用户只需要提前把模型下载到手机里，就算没有网络，也能直接开始语音听写，完全不依赖云端服务。在使用的过程中，应用会实时展示语音的转录文本，你可以一边说话一边看到文字的生成。当你点击暂停结束录音后，应用会自动帮你处理文本：它会自动过滤掉说话时的 “嗯”“啊” 这类填充词，还会删掉你说话时的自我纠正内容，直接帮你润色出干净通顺的文本，而不是像传统听写工具那样，逐字生硬地记录所有的口语内容。

不仅如此，应用还提供了一键文本转换的功能。转录完成后，你可以在文本下方选择 “要点”“正式”“简洁”“详细” 这几个不同的模式，一键把你的口语转换成你需要的格式：写工作邮件就选 “正式” 模式，整理会议纪要就选 “要点” 模式，完全不用自己再手动修改。隐私方面，这款应用也做了充分的考虑：你可以完全关闭云端模式，所有的语音处理都在你自己的手机本地完成，不用担心你的语音数据被上传。当然，如果你想要更好的文本优化效果，也可以开启云端模式，这时候应用会调用谷歌云端的 Gemini 大模型，来做更深度的文本清理。

为了让转录更准确，应用还支持个性化的词汇适配：它可以从你的 Gmail 账户里，导入你常用的姓名、专业术语这类关键词，避免转录的时候把这些专属词汇写错；你也可以自己添加自定义的行业行话，进一步提升转录的准确率。除此之外，应用还会保存你所有的转录会话历史，支持对所有历史记录进行搜索，方便你随时查找之前的听写内容。它还会统计你的听写数据，比如上一次会话的词汇量、每分钟的听写字数、总听写字数，帮你了解自己的输入效率。

正如应用在 App Store 的描述中写的那样：“Google AI Edge Eloquent 是一款先进的听写应用，旨在弥合自然语音与专业、可直接使用的文本之间的鸿沟。与逐字记录结巴和填充词的标准听写软件不同，Eloquent 利用人工智能捕捉你的意图含义，输出干净、准确的文字。”

不止 iOS，安卓版要做系统级的全局听写
虽然目前这款应用仅在 iOS 平台上线，但从 App Store 的描述中，已经透露出了谷歌对安卓版本的规划。应用的介绍中明确提到了 Android 版本的功能：它将支持 “无缝的 Android 集成”，用户可以把它设置为系统的默认键盘，这样一来，不管你在哪个应用的文本输入框里，都能直接调用它的听写功能，实现真正的系统级全局访问。除此之外，安卓版还会支持悬浮按钮功能，就像 Wispr Flow 在安卓平台的设计一样，用户可以在任何界面，通过悬浮按钮快速启动听写，不用切换应用就能随时开始转录。

AI 听写成新风口，谷歌下场补全 AI 布局

随着语音转文字大模型的不断进步，AI 驱动的听写应用正在成为越来越受欢迎的工具。此前，Wispr Flow、SuperWhisper、Willow 这类第三方听写应用，已经收获了大量的用户，不少职场人、创作者都在用这类工具，来提升记笔记、写内容的效率。

而谷歌这次悄然上线的这款实验性应用，正是正式加入了这个赛道的竞争。凭借自己在 Gemma、Gemini 大模型上的技术积累，还有本地 + 云端混合的处理方案，谷歌试图在这个新的风口里，抢下属于自己的市场。如果这次的测试顺利，未来我们很可能会看到谷歌把这些强大的听写功能，整合到安卓系统或者 Gboard 键盘这类核心产品里，让所有用户都能用上更智能的语音输入能力。

 用户评论

IT那些事
 348 成员 |  4706 话题
+我要提问 +随便写写

可能感兴趣的话题

Rivian首批R2 SUV正式交付，逆势突围美国电动车市场

iOS 27代码实锤佐证苹果折叠iPhone或如期秋季正式发布

亚马尔再曝新配色，Beats未发布头戴耳机新增象牙色版本

苹果更新App Store审核指南：老旧低质应用或将下架