生数科技发布高可控视频大模型 Vidu Q1:可精准调整所有动作行为
GoodNav 3 月 29 日报道,清华大学人工智能研究院副院长、生数科技的创始人及首席科学家朱军今天发布了高可控视频大模型 Vidu Q1,并声称这是业内首个高可控 AI 视频大模型。
根据官方信息,Vidu Q1 在多个方面取得了显著成果,包括多主体细节可控(尤其是在动作和布局方面)、音效同步可控以及画质提升等。以多主体细节可控为例,基于语义指令,Vidu Q1通过引入参考图的视觉指令,能够支持对场景中多主体的位置、大小和运动轨迹等属性进行更精确的控制,并且能够精准调整所有动作行为(如出场、退场、坐立姿态和行动路线)。
该模型支持音效同步可控功能,可以确保随着视频环境和画面切换,Vidu Q1 能够生成相应的音效,同时还可精确控制每段音效的时长以及音频出现的时间点,例如0-2秒风声、3-5秒雨声等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...