谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

310 0 0

GoodNav 4 月 10 日报道，谷歌为其视频 AI 模型 Veo 2 推出了新功能，旨在使用户更便利地生成具有电影感的画面并编辑真实视频。现在用户可以通过谷歌云的 Vertex AI 平台预览这些新增的 Veo 2 功能，同时谷歌还更新了文本转图像生成器 Imagen 3 及音频相关的 AI 模型。

据悉，Veo 2 新增的功能包括修复功能（inpainting）和外扩功能（outpainting）。谷歌表示，修复功能可以自动删除视频中的“无用背景、标志或干扰元素”，而外扩功能能够对原始视频进行扩展，AI 将生成的视频片段填充到新增的空间中，确保与原始片段自然融合，这一点类似于 Adobe 为图像提供的生成性扩展功能。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

此番更新还允许 Veo 2 用户在生成画面时选用电影拍摄技巧预设与文字描述，以指导最终结果的镜头构图、拍摄角度及节奏。例如，这些预设包括延时效果、无人机视角及模拟各种镜头平移等。

此外，Veo 2 还新增了一种插值功能，能够在两个静态图像之间创建流畅的视频过渡，为开头和结尾序列增添新的帧。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

与之竞争的 Adobe Firefly 视频模型同样具备类似功能，其生成性 AI 视频扩展功能已在上周的 Premiere Pro 中推出。谷歌在其 AI 生成输出中还加入了 SynthID 数字归属水印，类似于 Adobe 的内容凭证系统。不过，Adobe 进一步承诺其工具完全可用于商业用途，因其训练素材均来自于授权和公有领域内容，而谷歌则因抓取了大量网络内容而无法满足这一标准。

针对文本转图像模型 Imagen 3，谷歌已更新其编辑功能，声称能“显著”提升自动移除物体的效果，让移除干扰元素后的结果看起来更加自然。Veo 2 和 Imagen 3 已被包括欧莱雅和卡夫亨氏在内的多家公司用于营销内容制作。卡夫亨氏的数字体验负责人贾斯汀·托马斯表示，过去需要八周才能完成的工作，如今仅需八小时。

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

在音频领域，谷歌推出了其文本转音乐模型 Lyria 的私人预览版，并为其合成语音模型 Chirp 3 引入了“即时定制语音”功能。谷歌表示，Chirp 3 现在能从 10 秒的音频输入中生成“逼真的定制语音”，同时也推出了一项新转录功能的预览，该功能能够识别并分离出多方对话中的各个发言者，为多参与者谈话提供更清晰的转录。

这些更新仅仅是谷歌今日宣布的一系列 AI 相关消息中的一部分。谷歌效率优化型 Flash 模型的新版本 Gemini 2.5 Flash 即将上线 Vertex AI。谷歌表示，Gemini 2.5 Flash 将根据任务的复杂程度“自动调整处理时间”，以便为简单请求提供更快的结果。

此外，谷歌本周也将更新其面向企业的 Agentic AI 工具，使 AI 代理能够在不同平台（如 PayPal 和 Salesforce）之间沟通并执行任务。同时，谷歌云市场也将推出一个新板块，供企业浏览和购买由第三方谷歌合作伙伴构建的 AI 代理。