o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回
o1-preview 终于在一次较量中超越了 mini!亚利桑那州立大学的最新研究显示,o1-preview 在规划任务方面的表现明显优于 o1-mini。
与传统模型相比,其优势更是显著,在超难任务上的准确率比 Llama3.1-405B 高出 11 倍。
值得一提的是,之前 OpenAI 的内部人员也发布了一张图,显示 preview 在性能上不及满血版,经济性又不如 mini,处于一个相当尴尬的境地。
作者在推文中提到,尽管存在可保证性和成本问题,但就 CoT 而言,o1 已经超越了大模型的“近似检索”特性,提升到了“近似推理”的层次。
在论文中,o1 被称为 LRM(Large Reasoning Model,大型推理模型),而非一般的大型语言模型 LLM。
o1 团队的核心成员 Noam Brown 也转发了这项研究,并为 o1-preview 进行了宣传。
还有网友提到了 Meta 的 LeCun 半个多月前的推文,当时 LeCun 表示大模型缺乏规划能力,而现在 OpenAI 带着 o1 来挑战了。
用“搭积木”测试大模型
为了评估 o1 系列模型的规划能力,作者使用了 PlanBench 评估基准。
该基准的提出者中恰好有本文的三名作者中的两名 —— 共同一作 Karthik Valmeekam 和他的导师 Subbarao Kambhampati。
PlanBench 专为评估大模型的规划能力而设计,任务类型包括计划生成、成本最优规划、计划验证等。
在这个实验中,作者使用了来自国际规划竞赛(IPC)的 Blocksw
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...