Loading...

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

GoodNav 12月14日消息,360智脑官方公众号于昨日(12月13日)发布的一篇博文中,宣布推出其自主研发的AI大模型 360gpt2-o1,该模型在推理能力方面有了显著提升,并在数学和逻辑推理的任务中表现异常优秀。

该模型实现了技术突破,主要归功于合成数据的优化、模型后的训练及“慢思考”范式,并在多个权威评测中表现出色。

在多个基础数学评测(如MATH和高考数学)和权威数学竞赛(包括AIME24、AMC23)中,360gpt2-o1均取得了显著成绩,超越了前代模型360gpt2-pro,并优于GPT-4o模型。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

在数学竞赛评测中,360gpt2-o1的表现超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。该模型的整体框架如下:

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

优化合成数据

该模型运用了指令合成、质量和多样性筛选等方法,成功解决了高质量数学和逻辑推理数据稀缺的问题,有效地扩展了训练数据集。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

模型后训练

此模型采用了两阶段训练策略,首先使用小模型生成多种推理路径,然后利用大模型进行RFT训练和强化学习训练,从而提升模型的推理能力和反思纠错的能力。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

“慢思考”范式

该模型利用蒙特卡洛树搜索探索多样化的解决方案,同时引入LLM进行错误验证和纠错,模拟人类逐步推理和反思的过程,最终形成包含反思、验证、纠错和回溯的长思维链。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...