Loading...

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊

GoodNav于4月14日报道,LMArena 更新了 Meta 最新推出的开源大模型 Llama-4-Maverick 的排名,该模型从之前的第2名骤降至第32名。这一变化证实了开发者们对 Meta 提供“特供版” Llama 4 大模型以提升排名的质疑。

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊

4月6日,Meta 发布了最新的大模型 Llama 4,包括 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公开的 Chatbot Arena LLM 排行榜中名列第二,仅次于 Gemini 2.5 Pro。然而,随着开发者对 Llama 4 大模型开源版的实际效果反馈,Llama 4 的声誉迅速下滑。开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与发布给社区的开源版本不一致,因而对 Meta 刷榜行为表示怀疑。

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊

4月8日,Chatbot Arena 官方确认了用户的质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方发布的信息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。后期修正的模型为 HuggingFace 开源版相同的 Llama-4-Maverick-17B-128E-Instruct,它是一个17B激活参数、128个MoE专家的指令微调模型。

值得注意的是,目前与开源版相同的 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为32名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)及 Qwen2.5-Max(11),甚至连基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的评审人员会评估不同模型的输出,并选择他们更喜欢的结果。

尽管 LM Arena 从未被视为评估 AI 模型性能的最可靠标准,但对基准测试进行模型调整不仅存在误导性,还让开发者难以准确预测模型在不同应用场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 将尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上表现不错,”该发言人说,“我们现在发布了开源版本,将观察开发者如何根据具体使用案例来定制 Llama 4。我们期待看到他们创造的内容,并期待他们的持续反馈。”

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...