已预览一年,OpenAI 语音克隆服务 Voice Engine 仍未正式推出
GoodNav于3月7日报道,去年三月底,OpenAI 宣布推出名为 Voice Engine(声音引擎)的人工智能服务的“小规模预览”,声称该技术可以在仅需15秒的语音样本下克隆一个人的声音。然而,近一年过去,这款工具依然没有正式上线,OpenAI 也没有透露什么时候会全面发布。
OpenAI 对 Voice Engine 的保守态度,或许源于对技术被滥用的顾虑,也可能是为了避免引发监管审查。此前,该公司曾因过于追求“亮眼产品”而被批评,忽视了安全性的考量,并急于在竞争对手之前推出产品。
OpenAI 的发言人在接受 TechCrunch 采访时表示,目前公司仍在与有限的“可信合作伙伴”一起进行 Voice Engine 的测试。他提到:“我们在从合作伙伴的使用中学习,以提高模型的实用性和安全性。我们很高兴看到它能够被应用到语音治疗、语言学习、客户支持、游戏角色以及 AI 虚拟形象等多个场景中。”
据了解,Voice Engine 是 OpenAI 文本转语音 API 和 ChatGPT 语音形式背后的技术,能够生成与原始发言者极为相似的自然语音。该工具可以将书面文字转换为语音,同时在内容上设置了某种限制。不过,Voice Engine 的发布自一开始就经历了延迟和发布时间的多次更改。
根据 OpenAI 2024年6月发布的一篇博客文章,Voice Engine 模型是通过学习预测说话者在给定文本转录中可能发出的声音,考虑不同的声音、口音和说话风格,从而生成文本的语音版本,并体现出不同类型说话者的朗读“语音表达”。
最初,OpenAI 计划在2024年3月7日将 Voice Engine(当时称为 Custom Voices)引入其 API,打算让最多100名“可信开发者”提前使用,优先考虑那些开发具有“社会价值”或展示“创新和负责任”技术应用的应用程序的开发者。此外,OpenAI 还为该服务设定了收费标准:“标准”语音每百万字符15美元,“高清”语音每百万字符30美元。但在最后一刻,公司推迟了发布。几周后,OpenAI 在没有提供注册选项的情况下推出了 Voice Engine,仅允许大约10名于2023年底开始合作的开发者使用。
在2024年3月,OpenAI 在 Voice Engine 发布的博客中表示:“我们希望就合成语音的负责任部署以及社会对这些新能力的适应展开讨论。基于这些讨论及小规模测试的结果,我们将更明智地决定是否以及如何大规模部署该技术。”
根据 OpenAI 的说法,Voice Engine 自2022年起就开始研发。该公司表示已在2023年夏季向全球各地的高级政策制定者展示了该工具的潜力和风险。目前,包括 Livox 在内的几家合作伙伴已能使用 Voice Engine。Livox 是一家专注于为残障人士开发更自然沟通设备的初创企业,其首席执行官卡洛斯·佩雷拉(Carlos Pereira)对 TechCrunch 表示,尽管由于网络要求(许多 Livox 的客户没有互联网接入),他们尚未能将该技术整合到产品中,但他认为这一技术“令人印象深刻”。
佩雷拉通过电子邮件向 TechCrunch 表示:“语音质量及其能够用不同语言发声的能力是独一无二的——尤其是对于我们的客户,即残障人士。这是我见过的最令人印象深刻且易于使用的语音创造工具。我们希望 OpenAI 能尽快推出离线版本。”他补充说,尚未收到来自 OpenAI 关于 Voice Engine 可能发布的任何指示,也未看到该公司开始收费的迹象。目前,Livox 的使用尚未产生任何费用。
在2024年6月的博客文章中,OpenAI 暗示延迟发布 Voice Engine 的原因之一,是担心该技术可能在去年美国选举周期中被滥用。基于与利益相关者的讨论,Voice Engine 采用了多项安全措施,包括为生成的音频添加水印,以追溯其来源。
OpenAI 声明,开发者在使用 Voice Engine 之前必须获得原始说话者的“明确同意”,并且必须向受众明确披露该语音是由 AI 生成的。然而,该公司尚未解释如何执行这些政策。即使是对于能够使用 OpenAI 资源的公司来说,大规模落实这些政策也可能面临极大挑战。
在博客中,OpenAI 还暗示有意开发一种“语音认证体验”以验证说话者身份,并创建一个“禁止清单”,防止生成与知名人士声音过于相似的语音。这两个项目在技术上都具有很高的挑战性,如果处理不当,可能对一向被指责忽视安全措施的公司产生负面影响。
随着 AI 语音克隆技术的迅速发展,有效的过滤和身份验证正变得日益重要,成为负责任发布语音克隆技术的基本要求。据相关报道,AI 语音克隆被预计在2024年成为增长迅速的第三大诈骗手段,导致欺诈行为增加以及银行安全检查被绕过,同时隐私和版权法律未能跟上技术发展步伐。恶意分子利用语音克隆技术制作名人和政治人物的煽动性深度伪造视频,并迅速在社交媒体上传播。
OpenAI 有可能在下周推出 Voice Engine,也可能一直不发布。该公司多次表示,正在考虑将服务保持在较小范围内。但可以肯定的是,无论是出于品牌形象考虑还是安全原因,Voice Engine 的有限预览已成为 OpenAI 历史上持续时间最长的一个。