Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

50 0 0

GoodNav 4月25日消息，科技媒体marktechpost报道，Meta发布了WebSSL系列模型，包含3亿到70亿参数，仅使用图像数据进行训练。其目标是探索无需语言辅助的视觉自监督学习方法。

以OpenAI的CLIP为代表，语言-图像模型已成为视觉表征学习的主流，在视觉问答和文档理解等多模态任务中表现出色。然而，获取高质量数据集的难度以及数据规模限制，使得语言依赖的模型面临挑战。

为了解决这些问题，Meta在Hugging Face平台上发布了WebSSL系列模型，涵盖DINO和Vision Transformer（ViT）架构，参数规模从3亿到70亿不等。

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

200

GoodNav.net

1.7K

GoodNav.net

900

GoodNav.net

2.7K

GoodNav.net

760

GoodNav.net

1.6K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...