亚马逊推出全新 AI 语音模型 Nova Sonic，叫板 OpenAI 和谷歌

665 0 0

GoodNav 于 4 月 9 日报道，亚马逊推出了一款新一代生成式 AI 模型，名为 Nova Sonic。该模型具备原生处理语音的能力，并能够生成自然流畅的语音。亚马逊声称，Nova Sonic 在速度、语音识别和对话质量等重要性能指标的测试中，与 OpenAI 和谷歌的顶尖语音模型相当。

Nova Sonic 的推出标志着亚马逊对新兴 AI 语音模型的有力回应，例如为 ChatGPT 提供语音支持的模型，相比于亚马逊早期的 Alexa 等较为机械的模型，这些新模型在语音交互上更加自然流畅。

Nova Sonic 通过亚马逊的 Bedrock 开发者平台提供给用户，这个平台是用于构建企业级 AI 应用的工具，Nova Sonic 则通过一种全新的双向流式 API 接入。在一份新闻稿中，亚马逊指出 Nova Sonic 是市场上“最具成本效益”的 AI 语音模型，其价格比 OpenAI 的 GPT-4o 便宜约 80%。

亚马逊高级副总裁兼人工通用智能（AGI）部门首席科学家罗希特・普拉萨德表示，Nova Sonic 的一些组件已经为亚马逊升级版数字语音助手 Alexa+ 提供了支持。

普拉萨德指出，Nova Sonic 在将用户请求路由到不同 API 方面表现出色，与竞争对手的 AI 语音模型相比，这一能力使得 Nova Sonic 能在需要时从互联网获取实时信息、解析专有数据源，或在外部应用中采取行动，使用适当的工具完成任务。

在双向对话中，Nova Sonic 会掌握“最佳时机”发言，并会考虑说话者的停顿和打断等情境。此外，Nova Sonic 还能为用户的语音生成文本记录，开发者可以将这些文本用于多种应用场景。

普拉萨德提到，Nova Sonic 在语音识别错误方面表现优越，意味着该模型即使在用户模糊发音、说错话或在嘈杂环境中，仍然能够较好地理解用户意图。在一项跨语言和方言的语音识别基准测试——多语言 LibriSpeech 中，亚马逊表示 Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率（WER）仅为 4.2%，即在这些语言中，每 100 个单词大约有 4 个与人工转录的结果不同。

此外，在另一项衡量多人参与的高音量互动的基准测试 —— 增强多方互动中，亚马逊称 Nova Sonic 的单词错误率相较于 OpenAI 的 GPT-4o-transcribe 模型提高了 46.7%。Nova Sonic 还具备行业领先的响应速度，其平均感知延迟为 1.09 秒，亚马逊表示这一速度超越了为 OpenAI 的实时 API 提供动力的 GPT-4o 模型，后者的响应时间为 1.18 秒，这一数据源于人工分析的基准测试结果。

普拉萨德指出，Nova Sonic 是亚马逊构建人工通用智能（AGI）这一更广泛战略的重要组成部分，该公司将 AGI 定义为“能够在计算机上完成人类可以完成的一切任务的 AI 系统”。展望未来，普拉萨德表示，亚马逊计划推出更多能够理解不同模态（包括图像、视频和语音）的 AI 模型，以及“与将事物引入物理世界相关的其他感官数据”。

普拉萨德负责的亚马逊 AGI 部门目前似乎在公司产品战略中发挥着越来越重要的作用。就在上周，亚马逊刚刚推出了 Nova Act 的预览版，这是一个基于浏览器的 AI 模型，似乎为 Alexa+ 和亚马逊的“代我购买”功能的某些元素提供了支持。普拉萨德表示，从 Nova Sonic 开始，公司希望将更多内部的 AI 模型开放给开发者，以帮助他们构建各种应用。