图森未来发布图生视频开源大模型“Ruyi”:RTX 4090 就能运行,可生成 5 秒内容
GoodNav 12 月 17 日报道,图森未来今日发布了名为“Ruyi”的图生视频大型模型,并将 Ruyi-Mini-7B 版本进行开源,用户可以在 huggingface 上下载和使用。
根据介绍,Ruyi 是一种基于 DiT 架构的图生视频模型,包含两个主要部分:
-
一个 Casual VAE 模块用于视频数据的压缩与解压
-
一个 Diffusion Transformer 负责生成压缩后的视频
该模型的总参数量约为 7.1B,并使用了约 200M 个视频片段进行训练。“Ruyi”特别设计为在消费级显卡上运行(例如 RTX 4090),同时提供了部署指导和 ComfyUI 工作流程,方便用户快速上手。
-
多分辨率与多时长生成:Ruyi 支持最小 384*384 到最大 1024*1024 分辨率,并能生成最长 120 帧 / 5 秒的视频,支持任意长宽比。
-
起始与结束帧控制生成:Ruyi 支持最多 5 个起始帧以及最多 5 个结束帧的视频生成,通过循环叠加可创建任意长度的视频。
-
运动幅度控制:Ruyi 提供 4 个档位的运动幅度控制,供用户调整整体画面的变化程度。
-
镜头控制:Ruyi 提供了 5 种镜头控制选项:上、下、左、右及静止。
图森未来表示,公司致力于利用大模型来缩短动漫和游戏内容的开发周期和成本。这次发布的 Ruyi 大模型已经能够根据输入的关键帧生成接下来的 5 秒内容,或输入两个关键帧并由模型生成中间过渡内容,从而减少开发时间。在下次发布中,图森未来将同时推出两个版本,以满足不同创作者的灵活需求。
以下是 Ruyi-Mini-7B 的开源链接:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...