超越 Mistral 和 Qwen:谷歌 Gemini Embedding 登顶 MTEB,问鼎最强文本嵌入 AI 模型
GoodNav 3 月 10 日报道,谷歌公司在 3 月 7 日发表的博文中宣布推出 Gemini Embedding,这是一款以 AI 驱动的文本处理模型,已经整合到 Gemini API 中。
该模型在 Massive Text Embedding Benchmark(MTEB)中脱颖而出,超过了 Mistral、Cohere 和 Qwen 等对手,成为目前效果最佳的文本嵌入模型。
Gemini Embedding 将文本转化为数值表示(向量),从而支持语义搜索、推荐系统及文档检索等功能。其在 MTEB 基准测试中成绩优异,平均任务得分达 68.32,明显高于 Linq-Embed-Mistral 和 gte-Qwen2-7B-instruct 等其他模型,属于顶尖水平。
State-of-the-art(SOTA)AI 模型是指在特定任务或领域中当前表现最优秀的模型或方法。这些模型通常通过在各项基准测试中取得最高分数来证明其卓越性,往往在准确性、效率或功能上超越以往模型,甚至在某些任务中达到了接近人类的表现。
该模型在配对分类上的得分为 85.13;在检索方面得分为 67.71,而重排序得分为 65.58,这表明 Gemini Embedding 在 AI 搜索引擎、文档分析及聊天机器人优化等实际应用中具备明显的优势。
MTEB 由 Hugging Face 制定,通过超过 50 个数据集来评估 AI 模型在文本数据的排名、分类和检索等方面的能力。作为行业标准,MTEB 排行榜为企业选择 AI 模型提供了重要参考依据。Gemini Embedding 的卓越表现不仅巩固了谷歌在 AI 领域的领先地位,也为其在商业应用上的推广奠定了基础。
Gemini Embedding 的卓越性能使其在以下领域具备广泛的应用潜力:
-
搜索引擎:提高搜索结果的相关性,支持谷歌正在测试的完全 AI 驱动的搜索模式。
-
多语言应用:增强跨语言翻译、客户服务自动化及内容排名能力。
-
企业服务:优化基于 Google Cloud 的 AI 分析、语义搜索和自动化数据检索功能。