Loading...

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1

AI前沿资讯23小时前发布 GOODNAV.NET
185 0 0

GoodNav 4 月 15 日消息,智谱于昨日(4 月 14 日)发布了一篇博文,宣布推出新一代 GLM-4-32B-0414 系列模型,拥有 320 亿参数,效果与 OpenAI 的 GPT 系列及 DeepSeek 的 V3 / R1 系列不相上下,并且具备非常友好的本地部署能力。

该系列模型包括 四种型号:GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414。

GLM-4-32B-Base-0414

在预训练阶段,该模型利用了 15T 的高质量数据,其中包括大量用于推理的合成数据,为后续的强化学习训练奠定了基础。

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1

在后续训练阶段,除针对对话场景进行了人类偏好对齐外,团队还采用拒绝采样与强化学习等技术,提升了模型在指令遵循、工程代码和函数调用等方面的性能,增强了智能体完成任务所需的基本能力。

GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等领域展现了良好的效果,某些基准测试的表现甚至可以媲美更大规模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1

GLM-Z1-32B-0414 

该模型具备深度思考能力,是在 GLM-4-32B-0414 的基础上,通过冷启动与扩展强化学习,对数学、代码与逻辑等任务进行进一步训练得到的。

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1

与基础模型相比,GLM-Z1-32B-0414 显著提升了数理能力和处理复杂任务的能力。在训练过程中,该团队引入了基于对战排序反馈的通用强化学习,进一步提升了模型的通用性。

GLM-Z1-Rumination-32B-0414

该模型是具备沉思能力的深度推理模型(参考 Open AI 的 Deep Research)。

沉思模型通过更长时间的深入思考来应对更开放和复杂的问题(例如:编写两个城市 AI 发展对比及未来发展规划),结合搜索工具处理复杂任务,并通过多种规则型奖励来指导和扩展其端到端的强化学习训练。

GLM-Z1-9B-0414 

这是一个开源的小型 9B 模型,在数学推理和一般任务中同样表现出色,其整体性能在同尺寸开源模型中名列前茅。

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1

测试结果

GLM-4 系列在多项基准测试中表现出色。例如,在 IFEval 指令遵循测试中得分 87.6;在 TAU-Bench 任务自动化测试中,零售场景得分 68.7,航空场景得分 51.2;在 SimpleQA 搜索增强问答测试中的得分为 88.1。

模型 IFEval BFCL-v3 (总体) BFCL-v3 (多轮) TAU-Bench (零售) TAU-Bench (航空) SimpleQA HotpotQA
Qwen2.5-Max 85.6 50.9 30.5 58.3 22.0 79.0 52.8
GPT-4o-1120 81.9 69.6 41.0 62.8 46.0 82.8 63.9
DeepSeek-V3-0324 83.4 66.2 35.8 60.7 32.4 82.6 54.6
DeepSeek-R1 84.3 57.5 12.4 33.0 37.3 83.9 63.1
GLM-4-32B-0414 87.6 69.6 41.5 68.7 51.2 88.1 63.8

在代码修复方面,GLM-4 在 SWE-bench 测试中的成功率为 33.8%。使用 MIT 许可证的 GLM-4 降低了计算成本,为研究和商业机构提供了高性能的 AI 解决方案。

模型 框架 SWE-bench Verified SWE-bench Verified mini
GLM-4-32B-0414 Moatless[1] 33.8 38.0
GLM-4-32B-0414 Agentless[2] 30.7 34.0
GLM-4-32B-0414 OpenHands[3] 27.2 28.0

参考地址

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...