昆仑万维推出 Skywork-OR1 系列模型：全面开放、免费使用、完全开源

145 0 0

GoodNav 4 月 13 日报道，昆仑万维今日发布消息，天工团队在首个中文逻辑推理大模型 Skywork-o1 的基础上进行了迭代优化，推出了全新升级版的 Skywork-OR1(Open Reasoner 1) 系列模型。

据悉，该系列模型在相同参数规模下实现了行业内领先的推理性能，进一步突破了大模型在逻辑理解和复杂任务解答方面的能力瓶颈。同时，Skywork-OR1 将以全面开放、免费使用的方式，以完全开源的形式回馈开发者社区。

此次开源包含三款高性能模型，具体如下：

Skywork-OR1-Math-7B：专注于数学领域的专项模型，同时具备较强的代码处理能力。

Skywork-OR1-7B-Preview：融合数学和代码能力，强调通用性和专业性的综合模型。

Skywork-OR1-32B-Preview：面向更高复杂度的任务，拥有更强推理能力的旗舰版本。

昆仑万维官方表示，发布的 Skywork-OR1 系列模型采用行业最高透明度的开源策略：全面开源模型权重、训练数据集以及完整训练代码，所有资源均已上传至 GitHub 和 Huggingface 平台。配套的技术博客已发布于 Notion 平台，详细描述了数据处理流程、训练方法和关键技术发现，旨在为社区提供完全可复现的实践参考。

根据昆仑万维官方的消息，目前 Skywork-OR1-7B 和 Skywork-OR1-32B 的能力仍在不断提升，预计在两周内将发布这两个模型的正式版本，同时也会推出更为系统和详尽的技术报告，进一步分享其在推理模型训练中的经验和见解。

Skywork-OR1 系列的开源地址为：

https://github.com/SkyworkAI/Skywork-OR1

昆仑万维天工团队的更多开源项目可访问：

https://huggingface.co/Skywork

在评测方面，Skywork-OR1 系列模型引入avg@k作为核心评估指标，用于衡量模型在进行 k 次尝试时解决问题的平均表现。相比于传统的 pass@k 指标仅看重“至少一次成功”，avg@k 能更细致地反映模型在多轮生成过程中的稳定性和整体推理能力，从而更全面呈现其真实性能和实用价值。

在数学推理任务中：

通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 AIME24 和 AIME25 数据集上均实现了同参数规模下的最佳表现，展现出强大的数学推理能力。

针对数学场景深度优化的专项模型 Skywork-OR1-Math-7B 在 AIME24 和 AIME25 上分别取得69.8和52.3的高分，远超当前主流 7B 级别模型，充分验证了其在高阶数学推理任务中的专业优势。

Skywork-OR1-32B-Preview 在所有基准测试中均超越 QwQ-32B，并在更复杂的 AIME25 上与 R1 基本持平。

在竞赛编程任务中：

通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上均达成了同参数规模下的优异性能表现。

Skywork-OR1-32B-Preview 表现特别突出，其代码生成及问题解决能力已接近DeepSeek-R1（参数规模高达671B），在大幅压缩模型体量的同时实现了优越的性价比，充分显现出天工团队训练策略的先进性。

其中 Skywork-OR1-Math-7B 尤为抢眼，作为一个专注于数学推理的 7B 参数模型，经过多阶段 GRPO 训练在复杂数学问题上展现了卓越表现，同时在代码任务上的泛化能力也较强。下图展示了该模型在 AIME24 上的训练准确率曲线，清晰呈现了多阶段训练过程中性能的持续提升轨迹。

Skywork-OR1-Math-7B 最终模型在 AIME24 和 AIME25 的表现分别达到了69.8% 和 52.3%，超越了 OpenAI-o3-mini (low)，顺利达到当前尺寸的 SOTA 性能。值得注意的是，尽管该模型在训练中未围绕代码能力进行专门优化，但在代码评测基准上，Livecodebench 从 37.6% 提升至 43.6%，这一显著提升表明我们的训练方法具有良好的领域泛化性。