Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

25 0 0

GoodNav 4 月 7 日报道称，Meta 公司上周推出了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中获得了第二名。然而，这一成绩的可信度引发了不少质疑。多位 AI 研究者在社交平台 X 上指出，Meta 在 LM Arena 测试中使用的 Maverick 版本与向开发者广泛提供的版本存在差异。

在公告中，Meta 明确表示，参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。根据官方 Llama 网站的信息，实际参与 LM Arena 测试的版本是“经过对话性优化的 Llama 4 Maverick”。这意味着，该版本经过了特别的优化，以符合 LM Arena 的测试标准和环境。

Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

然而，LM Arena 作为测试工具，其可靠性本身就饱受争议。尽管如此，以往 AI 公司通常不会为模型进行特定的定制或微调，以在 LM Arena 上获得更高的得分，至少没有公开承认过这种做法。而 Meta 此次的做法则有所不同。

通过对模型进行针对性优化，并仅发布一个“普通版”，导致开发者面临诸多困扰。这使得开发者难以准确判断该模型在特定场景中的实际表现。此外，这种做法也具有误导性。理想情况下，虽然现有基准测试有许多不足，但它们至少能为用户提供关于单一模型在多种任务中优缺点的概览。

目前，研究人员已经在 X 上观察到了公开可下载的 Maverick 版本与 LM Arena上托管的模型之间存在显著的行为差异。例如，LM Arena 版本似乎更偏向于使用大量表情符号，并且提供的答案往往显得冗长。

Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

截至发稿时，Meta 公司和负责维护 LM Arena 的 Chatbot Arena 组织尚未对此事作出回应。