360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限
GoodNav 12月14日消息,360智脑官方公众号于昨日(12月13日)发布的一篇博文中,宣布推出其自主研发的AI大模型 360gpt2-o1,该模型在推理能力方面有了显著提升,并在数学和逻辑推理的任务中表现异常优秀。
该模型实现了技术突破,主要归功于合成数据的优化、模型后的训练及“慢思考”范式,并在多个权威评测中表现出色。
在多个基础数学评测(如MATH和高考数学)和权威数学竞赛(包括AIME24、AMC23)中,360gpt2-o1均取得了显著成绩,超越了前代模型360gpt2-pro,并优于GPT-4o模型。
在数学竞赛评测中,360gpt2-o1的表现超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。该模型的整体框架如下:
优化合成数据
该模型运用了指令合成、质量和多样性筛选等方法,成功解决了高质量数学和逻辑推理数据稀缺的问题,有效地扩展了训练数据集。
模型后训练
此模型采用了两阶段训练策略,首先使用小模型生成多种推理路径,然后利用大模型进行RFT训练和强化学习训练,从而提升模型的推理能力和反思纠错的能力。
“慢思考”范式
该模型利用蒙特卡洛树搜索探索多样化的解决方案,同时引入LLM进行错误验证和纠错,模拟人类逐步推理和反思的过程,最终形成包含反思、验证、纠错和回溯的长思维链。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...