Loading...

谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

GoodNav 4 月 10 日报道,谷歌为其视频 AI 模型 Veo 2 推出了新功能,旨在使用户更便利地生成具有电影感的画面并编辑真实视频。现在用户可以通过谷歌云的 Vertex AI 平台预览这些新增的 Veo 2 功能,同时谷歌还更新了文本转图像生成器 Imagen 3 及音频相关的 AI 模型。

谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

据悉,Veo 2 新增的功能包括修复功能(inpainting)和外扩功能(outpainting)。谷歌表示,修复功能可以自动删除视频中的“无用背景、标志或干扰元素”,而外扩功能能够对原始视频进行扩展,AI 将生成的视频片段填充到新增的空间中,确保与原始片段自然融合,这一点类似于 Adobe 为图像提供的生成性扩展功能。

谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

此番更新还允许 Veo 2 用户在生成画面时选用电影拍摄技巧预设与文字描述,以指导最终结果的镜头构图、拍摄角度及节奏。例如,这些预设包括延时效果、无人机视角及模拟各种镜头平移等。

此外,Veo 2 还新增了一种插值功能,能够在两个静态图像之间创建流畅的视频过渡,为开头和结尾序列增添新的帧。

谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

与之竞争的 Adobe Firefly 视频模型同样具备类似功能,其生成性 AI 视频扩展功能已在上周的 Premiere Pro 中推出。谷歌在其 AI 生成输出中还加入了 SynthID 数字归属水印,类似于 Adobe 的内容凭证系统。不过,Adobe 进一步承诺其工具完全可用于商业用途,因其训练素材均来自于授权和公有领域内容,而谷歌则因抓取了大量网络内容而无法满足这一标准。

针对文本转图像模型 Imagen 3,谷歌已更新其编辑功能,声称能“显著”提升自动移除物体的效果,让移除干扰元素后的结果看起来更加自然。Veo 2 和 Imagen 3 已被包括欧莱雅和卡夫亨氏在内的多家公司用于营销内容制作。卡夫亨氏的数字体验负责人贾斯汀·托马斯表示,过去需要八周才能完成的工作,如今仅需八小时。

谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

在音频领域,谷歌推出了其文本转音乐模型 Lyria 的私人预览版,并为其合成语音模型 Chirp 3 引入了“即时定制语音”功能。谷歌表示,Chirp 3 现在能从 10 秒的音频输入中生成“逼真的定制语音”,同时也推出了一项新转录功能的预览,该功能能够识别并分离出多方对话中的各个发言者,为多参与者谈话提供更清晰的转录。

这些更新仅仅是谷歌今日宣布的一系列 AI 相关消息中的一部分。谷歌效率优化型 Flash 模型的新版本 Gemini 2.5 Flash 即将上线 Vertex AI。谷歌表示,Gemini 2.5 Flash 将根据任务的复杂程度“自动调整处理时间”,以便为简单请求提供更快的结果。

此外,谷歌本周也将更新其面向企业的 Agentic AI 工具,使 AI 代理能够在不同平台(如 PayPal 和 Salesforce)之间沟通并执行任务。同时,谷歌云市场也将推出一个新板块,供企业浏览和购买由第三方谷歌合作伙伴构建的 AI 代理。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...