Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

345 0 0

GoodNav于4月14日报道，LMArena 更新了 Meta 最新推出的开源大模型 Llama-4-Maverick 的排名，该模型从之前的第2名骤降至第32名。这一变化证实了开发者们对 Meta 提供“特供版” Llama 4 大模型以提升排名的质疑。

4月6日，Meta 发布了最新的大模型 Llama 4，包括 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在 LMArena 公开的 Chatbot Arena LLM 排行榜中名列第二，仅次于 Gemini 2.5 Pro。然而，随着开发者对 Llama 4 大模型开源版的实际效果反馈，Llama 4 的声誉迅速下滑。开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与发布给社区的开源版本不一致，因而对 Meta 刷榜行为表示怀疑。

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

4月8日，Chatbot Arena 官方确认了用户的质疑，公开表示 Meta 提供给他们的是“特供版”，并考虑更新排行榜。根据 Chatbot Arena 官方发布的信息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本，当时该版本的排名为第二。后期修正的模型为 HuggingFace 开源版相同的 Llama-4-Maverick-17B-128E-Instruct，它是一个17B激活参数、128个MoE专家的指令微调模型。

值得注意的是，目前与开源版相同的 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为32名，远低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）及 Qwen2.5-Max（11），甚至连基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳？该公司在上周六发布的图表中解释称，该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果，因为 LM Arena 的评审人员会评估不同模型的输出，并选择他们更喜欢的结果。

尽管 LM Arena 从未被视为评估 AI 模型性能的最可靠标准，但对基准测试进行模型调整不仅存在误导性，还让开发者难以准确预测模型在不同应用场景下的表现。

Meta 的一位发言人向 TechCrunch 表示，Meta 将尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在 LM Arena 上表现不错，”该发言人说，“我们现在发布了开源版本，将观察开发者如何根据具体使用案例来定制 Llama 4。我们期待看到他们创造的内容，并期待他们的持续反馈。”