Loading...

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

GoodNav 4月25日消息,科技媒体marktechpost报道,Meta发布了WebSSL系列模型,包含3亿到70亿参数,仅使用图像数据进行训练。其目标是探索无需语言辅助的视觉自监督学习方法。

OpenAI的CLIP为代表,语言-图像模型已成为视觉表征学习的主流,在视觉问答和文档理解等多模态任务中表现出色。然而,获取高质量数据集的难度以及数据规模限制,使得语言依赖的模型面临挑战。

为了解决这些问题,Meta在Hugging Face平台上发布了WebSSL系列模型,涵盖DINO和Vision Transformer(ViT)架构,参数规模从3亿到70亿不等。

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...