标签:智源研究院

一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限

长视频理解是多模态大模型核心能力之一,也是通向通用人工智能(AGI)的重要一步。然而,现有的多模态大模型在处理超过10分钟的超长视频时,依然面临性能与效...