Meta 推出 Apollo 开源模型，让 AI “看懂”视频

1.4K 0 0

GoodNav于12月18日报道，Meta与斯坦福大学合作，推出了一系列新的AI模型Apollo，显著提升了机器对视频内容的理解能力。

需要注意的是，尽管人工智能在图像和文本处理上已取得显著进展，然而让机器真正理解视频仍然是一个巨大的挑战。

视频中包含复杂且动态的信息，处理这些信息对人工智能来说更加困难，不仅需要更强的计算能力，还面临设计最佳AI视频解读系统的诸多挑战。

在视频处理研究中，研究者们发现，保持每秒恒定的帧采样率能够得到最佳效果。因此，Apollo模型使用了两个不同的组件，一个用于处理单独的视频帧，另一个用于跟踪对象及场景随时间的变化。

此外，在处理后的视频片段之间添加时间戳，有助于模型理解视觉信息与文本描述之间的关系，从而保持时间感知。

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

在模型训练方面，团队的研究显示，训练方法的重要性高于模型的大小。Apollo模型采用分阶段训练的方式，按顺序激活模型的不同部分，这种方式优于一次性训练所有部分。

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

此外，Meta还不断优化数据组合，发现10~14%的文本数据，剩余部分则略微偏向视频内容，以更好地平衡语言理解与视频处理能力。

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

Apollo模型在各个规模上均表现出色，较小的Apollo-3B超越了Qwen2-VL等同规模的模型，而Apollo-7B则超越了更大参数的同类模型。Meta已开源了Apollo的代码和模型权重，并在Hugging Face平台上提供公开演示。

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

参考

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

800

GoodNav.net

690

GoodNav.net

1.1K

GoodNav.net

1.2K

GoodNav.net

495

GoodNav.net

405

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...