Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化
GoodNav 4 月 7 日报道称,Meta 公司上周推出了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中获得了第二名。然而,这一成绩的可信度引发了不少质疑。多位 AI 研究者在社交平台 X 上指出,Meta 在 LM Arena 测试中使用的 Maverick 版本与向开发者广泛提供的版本存在差异。
在公告中,Meta 明确表示,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。根据官方 Llama 网站的信息,实际参与 LM Arena 测试的版本是“经过对话性优化的 Llama 4 Maverick”。这意味着,该版本经过了特别的优化,以符合 LM Arena 的测试标准和环境。
然而,LM Arena 作为测试工具,其可靠性本身就饱受争议。尽管如此,以往 AI 公司通常不会为模型进行特定的定制或微调,以在 LM Arena 上获得更高的得分,至少没有公开承认过这种做法。而 Meta 此次的做法则有所不同。
通过对模型进行针对性优化,并仅发布一个“普通版”,导致开发者面临诸多困扰。这使得开发者难以准确判断该模型在特定场景中的实际表现。此外,这种做法也具有误导性。理想情况下,虽然现有基准测试有许多不足,但它们至少能为用户提供关于单一模型在多种任务中优缺点的概览。
目前,研究人员已经在 X 上观察到了公开可下载的 Maverick 版本与 LM Arena上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更偏向于使用大量表情符号,并且提供的答案往往显得冗长。
截至发稿时,Meta 公司和负责维护 LM Arena 的 Chatbot Arena 组织尚未对此事作出回应。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...