首发根据音频生成 4K 分辨率 1 小时长视频,复旦、百度联手打造 AI 开源模型 Hallo2
GoodNav 10 月 21 日报道,复旦大学与百度共同开发了一款名为 Hallo2 的新型 AI 模型,能够生成时长达数小时的 4K 分辨率人物动画,现已在 GitHub 上发布为开源项目。
Hallo2 模型基于潜在扩散模型,相较于前代 Hallo 模型,性能更为优越,支持长视频生成。通过引入如 patch-drop 和高斯噪声的数据增强方法,显著提升了长时间视频的视觉一致性及时间连贯性。
Hallo2 还结合了向量量化生成对抗网络和时间对齐技术,确保了高分辨率视频的优质与流畅。
此外,Hallo2 将调整可变的语义文本标签的肖像表情作为条件输入。这超越了传统的音频提示,增强了可控性并丰富了生成内容的多样性。项目页面介绍,Hallo2 是首个实现 4K 分辨率并生成时长达 1 小时的音频驱动人像动画的方法,同时通过文本提示进行增强。
附带 Hallo2 项目的链接如下:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...