智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

1.3K 0 0

GoodNav 10 月 21 日报道，智源研究院今日发布了名为 Emu3 的原生多模态世界模型。该模型仅依赖于下一个 token 的预测，避免了使用扩散模型或组合方法，便能够对文本、图像和视频三种模态的数据进行理解与生成。官方声称该模型实现了图像、文本、视频的统一。

在图像生成的任务中，通过基于人类偏好的评测，Emu3 在性能上优于 SD-1.5 和 SDXL 模型。在视觉语言理解的任务中，Emu3 在 12 项基准测试的平均得分上超过了 LlaVA-1.6。在视频生成的任务中，Emu3 在 VBench 基准测试的得分上也优于 OpenSora 1.2。

据悉，Emu3 提供了强大的视觉 tokenizer，能够将视频和图像转化为离散 token。这些视觉离散 token 可与文本 tokenizer 生成的离散 token 一同输入到模型中。同时，该模型生成的离散 token 也能够被转换为文本、图像和视频，为任何对任何的任务提供了更为统一的研究框架。

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

▲ Emu3 生成的图像

研究表明，下一个 token 的预测可以作为多模态模型的有力范式，超越语言本身进行大规模的多模态学习，并在多模态任务中展现出先进的性能。通过将复杂的多模态设计简化为 token 本身，在大规模训练和推理中能够释放出巨大的潜能。

目前，Emu3 已开源了相关关键技术和模型，链接如下：