首发根据音频生成 4K 分辨率 1 小时长视频，复旦、百度联手打造 AI 开源模型 Hallo2

1.4K 0 0

GoodNav 10 月 21 日报道，复旦大学与百度共同开发了一款名为 Hallo2 的新型 AI 模型，能够生成时长达数小时的 4K 分辨率人物动画，现已在 GitHub 上发布为开源项目。

Hallo2 模型基于潜在扩散模型，相较于前代 Hallo 模型，性能更为优越，支持长视频生成。通过引入如 patch-drop 和高斯噪声的数据增强方法，显著提升了长时间视频的视觉一致性及时间连贯性。

首发根据音频生成 4K 分辨率 1 小时长视频，复旦、百度联手打造 AI 开源模型 Hallo2

Hallo2 还结合了向量量化生成对抗网络和时间对齐技术，确保了高分辨率视频的优质与流畅。

此外，Hallo2 将调整可变的语义文本标签的肖像表情作为条件输入。这超越了传统的音频提示，增强了可控性并丰富了生成内容的多样性。项目页面介绍，Hallo2 是首个实现 4K 分辨率并生成时长达 1 小时的音频驱动人像动画的方法，同时通过文本提示进行增强。

附带 Hallo2 项目的链接如下：

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

1.6K

GoodNav.net

820

GoodNav.net

1.3K

GoodNav.net

550

GoodNav.net

970

GoodNav.net

675

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...