AI“推理”模型兴起,基准测试成本飙升
GoodNav 4 月 13 日报道,伴随着人工智能(AI)技术的持续进步,所谓的“推理”AI模型成为了研究的焦点。这类模型具备像人类一样逐步分析问题的能力,在某些领域,比如物理学中,它们的表现被认为优于非推理模型。然而,这种优势同时也导致了相对较高的测试成本,使得这些模型的独立能力验证面临诸多挑战。
根据第三方AI评测机构“人工智能分析”(Artificial Analysis)提供的数据,评估OpenAI的o1推理模型在七个流行AI基准测试(包括MMLU-Pro、GPQA Diamond、Humanity\’s Last Exam、LiveCodeBench、SciCode、AIME 2024和MATH-500)中的表现,费用高达2767.05美元(注:当前汇率约合20191元人民币)。相比之下,评测Anthropic的Claude 3.7 Sonnet这一“混合”推理模型的成本为1485.35美元(现汇率约合10839元人民币),而测试OpenAI的o3-mini-high的费用仅为344.59美元(现汇率约合2514元人民币)。尽管某些推理模型的测试费用相对较低,例如评估OpenAI的o1-mini仅需141.22美元(现汇率约合1030元人民币),但总体来看,推理模型的测试费用仍然相对较高。截至目前,“人工智能分析”在评估约十几种推理模型上已经花费了约5200美元(现汇率约合37945元人民币),这一数额接近于该公司分析80种非推理模型所花费的2400美元的两倍。
OpenAI在2024年5月推出的非推理模型GPT-4o,其评估费用仅为108.85美元,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理版本)的评估费用为81.41美元。“人工智能分析”的联合创始人乔治・卡梅伦(George Cameron)向TechCrunch表示,随着越来越多AI实验室开发推理模型,该组织计划增加其测试预算。“在‘人工智能分析’,我们每月进行数百次评估,为此投入了相当可观的预算,”卡梅伦说,“我们预计随着模型发布的频率增加,这项支出还会增加。”
“人工智能分析”并不是唯一面临AI测试成本上升的机构。AI初创公司“通用推理”(General Reasoning)的首席执行官罗斯・泰勒(Ross Taylor)表示,他最近花费了580美元用约3700个独特的提示评估Claude 3.7 Sonnet。泰勒估计,仅对MMLU Pro(一套旨在评估模型语言理解能力的问题集)进行一次完整的测试,成本就会超过1800美元。“我们正在逐步迈向一个新阶段,在这个阶段,一个实验室在基准测试中报告x%的结果,而他们所投入的计算资源y却远低于学术界的资源,”泰勒在最近一篇X上的帖子中写道,“没有人能够复制这些结果。”
那么,为什么推理模型的测试费用会这么高呢?主要原因是它们生成的token数量巨大。token是原始文本的片段,例如将单词“fantastic”分解为“fan”、“tas”和“tic”。据“人工智能分析”表示,在该公司的基准测试中,OpenAI的o1生成的token超过4400万个,约为GPT-4o生成量的八倍。大多数AI公司是按token数量计费的,因此成本很容易积累。
此外,现代基准测试通常会从模型中引出大量token,因为它们涉及复杂的多步骤任务。Epoch AI的高级研究员让-斯坦尼斯拉斯・德内恩(Jean-Stanislas Denain)指出,今天的基准测试更为复杂,尽管每个基准测试的问题总数有所减少。“它们通常试图评估模型处理现实世界任务的能力,例如编写与执行代码、浏览互联网以及计算机操作,”德内恩指出。他还提到,最昂贵的模型每个token的成本在不断上升。例如,Anthropic在2024年5月发布的Claude 3 Opus是当时最昂贵的模型,每百万个输出token的费用为75美元。而OpenAI今年早些时候推出的GPT-4.5和o1-pro,每百万个输出token的费用分别为150美元和600美元。
“尽管随着时间推移,模型性能提升使得达到特定性能水平的成本显著下降,但如果你想在某个特定时点评估最顶尖的模型,仍然要支付更高的费用,”德内恩表示。许多AI实验室,包括OpenAI,为测试目的向基准测试组织提供免费或补贴的模型访问权限。不过一些专家认为,这种做法可能影响测试结果的公正性——即使没有证据表明存在操控,AI实验室的参与本身或许就会损害评估评分的完整性。