OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录
GoodNav 9 月 25 日报道,亚利桑那州立大学的研究团队利用 PlanBench 基准对 OpenAI 的 o1 模型进行规划能力测试。研究结果显示,o1 模型在某些方面取得了显著进展,但仍然存在显著的局限性。
PlanBench 基准概述
PlanBench 于 2022 年开发,旨在评估人工智能系统的规划能力,包含 600 个来自 Blocksworld 领域的任务,要求将积木按照特定顺序堆叠。
OpenAI o1 模型的表现
在 Blocksworld 任务中,OpenAI 的 o1 模型的准确率达到了 97.8%,远超之前最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。
在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而 OpenAI 的 o1 模型的准确率为 52.8%。IT之家附上报告图片如下:
研究人员还测试了一种新的随机变体,以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中,o1 的准确率降至 37.3%,但仍远高于其他得分接近零的模型。
规划步骤越多,性能下降越明显
随着任务复杂度的增加,o1 的表现显著下降。在需要 20 到 40 个规划步骤的问题中,o1 的准确率从 97.8% 降至仅 23.63%。
该模型在识别无法解决的任务方面也表现不佳,仅有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但无法实现的计划。
“量子改进”,但并非突破性
尽管 o1 在基准性能上实现了“量子改进”,但这并不保证解决方案的正确性。经典的规划算法如快速向下算法,可以在更短的计算时间内实现完美的准确性。
研究还指出,o1 的资源消耗较高,进行这些测试的费用接近 1900 美元,而经典算法在标准计算机上几乎不需要任何成本。
研究人员强调,公平比较人工智能系统时必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,尽管像 o1 这样的人工智能模型在复杂推理任务上有所进步,但这些能力仍显不足。