字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程
GoodNav 在 11 月 6 日报道,采用单图视频驱动技术,只需一张静态照片和一段动态视频,即可制作出高质量的“电影级”视频。
字节跳动的智能创作团队推出了最新的单图视频驱动技术 X-Portrait 2,该模型不仅能够保留原始图像的 ID,还能捕捉并转移从细微到夸张的各种表情与情绪,简化了当前的动作捕捉、角色动画和内容创作流程。
不同于以往基于人脸关键点检测的单图驱动方案,X-Portrait 2 构建了一个表情编码器模型,通过端到端的自监督训练框架,能够在大量人像视频中自我学习与 ID 无关的运动隐式表征。
进一步将该编码器与强大的生成性扩散模型结合,即可生成流畅且富有表现力的视频。在大规模高质量表情视频的训练下,X-Portrait 2 在运动表现力和 ID 保持性方面比以往技术有显著提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...