刚刚，OpenAI发布新一代语音模型，更具个性化的语音agent要来了_实时追踪

继 2022 年推出首个音频模型 Whisper，OpenAI 于今日凌晨发布了 3 款全新语音模型——

gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts 。

OpenAI 表示，Operator、Deep Research、Computer-Using Agents 以及 Responses API 的发布，使得基于文本的 agent 在任务执行能力和实用性方面不断突破。然而，要让 agent 真正发挥作用，交互方式必须更加直观，超越纯文本输入，支持自然语音交流。

OpenAI 表示，最新的语音转文本（STT）模型在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案，使其在呼叫中心、会议记录等领域具备更高可靠性。

目前，3 款全新语音模型已经上线 API，开发者可以基于此打造更强大、更具个性化的语音 agent。

详情链接：

https://platform.openai.com/docs/guides/audio

此外，开发者还可以为文本到语音（TTS）模型设定语音风格。例如，可以让 AI 以“富有同理心的客户服务代表”风格进行交流。这使得语音 agent 能够提供更具温度和表现力的语音体验，广泛应用于个性化客服、故事讲述等领域。

先来感受两个语音实例：

体验地址：https://www.openai.fm/

据介绍，此次 OpenAI 通过使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。具体而言：

这些技术创新结合实际应用需求，不仅提升了语音建模能力，还大幅改善了 AI 在真实场景中的表现。

相较于原有的 Whisper，新语音模型在词错误率（WER）、语言识别能力和准确性方面均有显著提升。在多项基准测试中，新语音模型的 WER 均低于现有 Whisper 模型。 WER 衡量语音识别的准确性，数值越低表示转录质量越高。

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS（少样本多语言语音基准）测试中，覆盖 100 多种语言，表现均优于 Whisper v2 和 Whisper v3，展现了更广泛的语言适应能力和更精确的转录效果。

而且，在主要语言的评测中，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上的其他领先模型，为多语言语音应用提供了更可靠的技术支持。

OpenAI 推出的 gpt-4o-mini-tts 则具有增强的语音可控性（steerability）。开发人员首次不仅可以“指导”模型说什么，还可以“指导”它怎么说，从而为从客户服务到创意故事等各种用例提供更多定制体验。

值得注意的是，这些文本到语音模型仅限于人工预设语音，OpenAI 表示，他们会对其进行监控，以确保它们始终与合成预设语音相匹配。

OpenAI 也给出了一些官方使用建议，对于已经使用基于文本的模型构建对话体验的开发人员来说，添加新的语音到文本和文本到语音模型是构建语音 agent 的最简单方法， OpenAI 将发布与 Agents SDK 的集成，以简化这一开发流程；对于希望构建低延迟语音到语音体验的开发人员，可以使用实时 API 中的语音到语音模型进行构建。

未来，OpenAI 计划继续提高音频模型的智能性和准确性，帮助开发者使用自己的自定义语音来构建更加个性化的体验，以及开发其他模态（包括视频）的 agent。

整理：学术君

纵观资讯

刚刚，OpenAI发布新一代语音模型，更具个性化的语音agent要来了

热门标签

热门排行

最新更新

友情链接