标签:Emu3

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态...