Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
GoodNav 4月25日消息,科技媒体marktechpost报道,Meta发布了WebSSL系列模型,包含3亿到70亿参数,仅使用图像数据进行训练。其目标是探索无需语言辅助的视觉自监督学习方法。
以OpenAI的CLIP为代表,语言-图像模型已成为视觉表征学习的主流,在视觉问答和文档理解等多模态任务中表现出色。然而,获取高质量数据集的难度以及数据规模限制,使得语言依赖的模型面临挑战。
为了解决这些问题,Meta在Hugging Face平台上发布了WebSSL系列模型,涵盖DINO和Vision Transformer(ViT)架构,参数规模从3亿到70亿不等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...