OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

AI前沿资讯7个月前发布 GOODNAV.NET

1.5K 0 0

GoodNav 9 月 25 日报道，亚利桑那州立大学的研究团队利用 PlanBench 基准对 OpenAI 的 o1 模型进行规划能力测试。研究结果显示，o1 模型在某些方面取得了显著进展，但仍然存在显著的局限性。

PlanBench 基准概述

PlanBench 于 2022 年开发，旨在评估人工智能系统的规划能力，包含 600 个来自 Blocksworld 领域的任务，要求将积木按照特定顺序堆叠。

OpenAI o1 模型的表现

在 Blocksworld 任务中，OpenAI 的 o1 模型的准确率达到了 97.8%，远超之前最佳语言模型 LLaMA 3.1 405B（准确率为 62.6%）。

在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而 OpenAI 的 o1 模型的准确率为 52.8%。IT之家附上报告图片如下：

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

研究人员还测试了一种新的随机变体，以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中，o1 的准确率降至 37.3%，但仍远高于其他得分接近零的模型。

规划步骤越多，性能下降越明显

随着任务复杂度的增加，o1 的表现显著下降。在需要 20 到 40 个规划步骤的问题中，o1 的准确率从 97.8% 降至仅 23.63%。

该模型在识别无法解决的任务方面也表现不佳，仅有 27% 的时间能够正确识别。在 54% 的情况下，它错误地生成了完整但无法实现的计划。

“量子改进”，但并非突破性

尽管 o1 在基准性能上实现了“量子改进”，但这并不保证解决方案的正确性。经典的规划算法如快速向下算法，可以在更短的计算时间内实现完美的准确性。

研究还指出，o1 的资源消耗较高，进行这些测试的费用接近 1900 美元，而经典算法在标准计算机上几乎不需要任何成本。

研究人员强调，公平比较人工智能系统时必须考虑准确性、效率、成本和可靠性。他们的研究结果表明，尽管像 o1 这样的人工智能模型在复杂推理任务上有所进步，但这些能力仍显不足。

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

由媒体 The Decoder 使用 Midjourney 生成

# AI前沿资讯 # AI # o1 # OpenAI

文章版权归作者所有，未经允许请勿转载。

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

GoodNav.net

1.6K

OpenAI 重点转向产品开发，研究人才外流给了对手机会

GoodNav.net

1.5K

OpenAI 引领 AI 浪潮：o1 模型可处理 5 小时任务，颠覆营销思维和模式

GoodNav.net

1.5K

耗资十亿日元开发，日本儿童虐待检测 AI 系统项目宣告失败

GoodNav.net

755

NOpenAI o3 / o4-mini 模型 AI 生成文本含特殊符号，推测为隐形水印

GoodNav.net

210

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

GoodNav.net

945

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

PlanBench 基准概述

OpenAI o1 模型的表现

规划步骤越多，性能下降越明显

“量子改进”，但并非突破性

英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能更强、响应更快

相关文章

暂无评论

相关文章