图森未来发布图生视频开源大模型“Ruyi”：RTX 4090 就能运行，可生成 5 秒内容

1.4K 0 0

GoodNav 12 月 17 日报道，图森未来今日发布了名为“Ruyi”的图生视频大型模型，并将 Ruyi-Mini-7B 版本进行开源，用户可以在 huggingface 上下载和使用。

根据介绍，Ruyi 是一种基于 DiT 架构的图生视频模型，包含两个主要部分：

该模型的总参数量约为 7.1B，并使用了约 200M 个视频片段进行训练。“Ruyi”特别设计为在消费级显卡上运行（例如 RTX 4090），同时提供了部署指导和 ComfyUI 工作流程，方便用户快速上手。

多分辨率与多时长生成：Ruyi 支持最小 384*384 到最大 1024*1024 分辨率，并能生成最长 120 帧 / 5 秒的视频，支持任意长宽比。
起始与结束帧控制生成：Ruyi 支持最多 5 个起始帧以及最多 5 个结束帧的视频生成，通过循环叠加可创建任意长度的视频。
运动幅度控制：Ruyi 提供 4 个档位的运动幅度控制，供用户调整整体画面的变化程度。
镜头控制：Ruyi 提供了 5 种镜头控制选项：上、下、左、右及静止。

图森未来发布图生视频开源大模型“Ruyi”：RTX 4090 就能运行，可生成 5 秒内容

图森未来表示，公司致力于利用大模型来缩短动漫和游戏内容的开发周期和成本。这次发布的 Ruyi 大模型已经能够根据输入的关键帧生成接下来的 5 秒内容，或输入两个关键帧并由模型生成中间过渡内容，从而减少开发时间。在下次发布中，图森未来将同时推出两个版本，以满足不同创作者的灵活需求。

以下是 Ruyi-Mini-7B 的开源链接：