Loading...

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

GoodNav 10 月 21 日报道,智源研究院今日发布了名为 Emu3 的原生多模态世界模型。该模型仅依赖于下一个 token 的预测,避免了使用扩散模型或组合方法,便能够对文本、图像和视频三种模态的数据进行理解与生成。官方声称该模型实现了图像、文本、视频的统一

在图像生成的任务中,通过基于人类偏好的评测,Emu3 在性能上优于 SD-1.5 和 SDXL 模型。在视觉语言理解的任务中,Emu3 在 12 项基准测试的平均得分上超过了 LlaVA-1.6。在视频生成的任务中,Emu3 在 VBench 基准测试的得分上也优于 OpenSora 1.2。

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

据悉,Emu3 提供了强大的视觉 tokenizer,能够将视频和图像转化为离散 token。这些视觉离散 token 可与文本 tokenizer 生成的离散 token 一同输入到模型中。同时,该模型生成的离散 token 也能够被转换为文本、图像和视频,为任何对任何的任务提供了更为统一的研究框架。

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

▲ Emu3 生成的图像

研究表明,下一个 token 的预测可以作为多模态模型的有力范式,超越语言本身进行大规模的多模态学习,并在多模态任务中展现出先进的性能。通过将复杂的多模态设计简化为 token 本身,在大规模训练和推理中能够释放出巨大的潜能。

目前,Emu3 已开源了相关关键技术和模型,链接如下:

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...