• OpenAI API新增多项语音智能功能,重构实时音频交互体验
  • 发布于 2小时前
  • 5 热度
    0 评论

堆代码讯 OpenAI于周四正式宣布,其Realtime API将迎来多项语音智能功能更新,核心目标是助力开发者轻松构建具备对话、转录与翻译能力的应用程序,推动实时音频交互从简单问答向多功能实用场景升级。此次更新推出了三款全新语音相关模型,形成了覆盖对话、翻译、转录的全场景语音解决方案,进一步丰富了AI语音应用的可能性。

作为此次更新的核心亮点,新模型GPT‑Realtime‑2主打逼真语音模拟与智能对话能力,能够实现与用户的自然交互。与前身GPT-Realtime-1.5相比,该模型最大的突破的是搭载了GPT‑5级别的推理能力,OpenAI表示,这一升级旨在让模型能够更好地处理用户提出的复杂请求,大幅提升对话中的上下文理解与推理效率。据悉,该模型在Big Bench Audio智能测试中的准确率较上一代提升显著,同时优化了对话体验,比如在执行复杂任务前会给出“我查一下”等提示,避免用户产生交互断层感,还支持开发者根据需求选择不同档位的推理强度,兼顾延迟与体验。


除了对话模型,OpenAI同步推出了专注于实时翻译的GPT‑Realtime‑Translate。顾名思义,该模型的核心功能是提供高效的实时翻译服务,能够精准“跟上”用户的对话节奏,实现无明显延迟的语音互译。其语言支持范围广泛,可理解超过70种输入语言,并能将其转化为13种输出语言,覆盖全球主要语言场景,目前已被德国电信等企业纳入测试,在部分方言场景下的错词率表现优于同类模型。


最后,针对语音转文本的核心需求,OpenAI推出了全新转录能力GPT‑Realtime‑Whisper,可为用户提供实时流式语音转文本服务,能够在交互发生的同时,精准捕捉语音内容并转化为文本,完美适配会议、直播、客服等需要即时转录的场景,解决了传统转录延迟高、同步性差的痛点。


OpenAI对此次更新的价值给予高度评价,其官方表示:“我们推出的这些模型共同将实时音频从简单的问答交互转变为能够真正发挥作用的语音界面:在对话过程中进行倾听、推理、翻译、转录并采取行动。”这一表述也明确了此次更新的核心方向——打破传统语音交互的局限,打造多功能、一体化的语音智能界面,让AI能够更深度地参与到各类实时音频场景中。


从应用场景来看,此次新增的语音功能覆盖多个领域,其中最直接的受益者是希望扩展客户服务能力的企业,借助这些工具,企业可快速构建智能语音客服,实现高效的客户咨询、问题解答与需求处理。同时OpenAI也明确指出,这些新功能的应用范围远不止于此,还将为教育、媒体、活动及创作者平台等领域提供助力,比如教育领域的实时双语教学、媒体领域的直播实时转录与翻译等,为各行业的数字化升级注入新动力。


值得注意的是,尽管这些语音工具具备极高的实用性,但也存在被滥用的潜在风险,比如用于生成垃圾信息、实施欺诈等网络滥用行为。对此,OpenAI已提前建立完善的防护措施,在系统中嵌入了特定触发机制,一旦检测到对话内容违反其有害内容准则,将立即中止交互,最大限度降低滥用风险。结合此前GPT-4o语音功能暴露的安全隐患,OpenAI此次还优化了防护体系,进一步限制未经授权的语音生成,避免出现语音模仿等版权风险问题。


在计费方式上,三款新的语音模型均整合在OpenAI的Realtime API中,采用差异化计费标准:GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper按使用分钟计费,其中前者每分钟计费0.034美元,后者每分钟0.017美元;而GPT‑Realtime‑2则按令牌消耗量计费,具体为每百万音频输入令牌32美元,每百万音频输出令牌64美元,这种差异化定价可满足不同开发者的成本需求,兼顾小型开发者与企业级用户的使用场景。


此次OpenAI API的语音功能更新,不仅丰富了自身的产品体系,更推动了AI语音交互技术的进一步成熟。随着这些功能的落地应用,开发者将拥有更强大的工具支撑,各类语音智能应用也将迎来爆发式增长,而完善的防护措施与合理的计费模式,也将为技术的可持续发展提供保障,让AI语音真正服务于各行业的实际需求。
用户评论