Loading...

开启多模态思考新时代:昆仑万维开源 R1V 视觉思维链推理模型

GoodNav 3 月 18 日报道,昆仑万维今天正式开源了首个工业多模态推理模型 Skywork R1V,成为首家在中国开源「多模态推理模型」的企业,即日起发布模型权重和技术报告。

图片

模型权重下载

详细技术报告

据悉,视觉推理模型是一种能够处理需要思维链(Chain-of-Thought)推理的视觉任务的模型。它通过多步逻辑推理和分析视觉信息,逐步导出最终结果。这类模型不仅注重图像内容的识别与理解,还强调通过逐层推理路径,对复杂视觉问题进行精准解答,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学成像的诊断推理等。

在推理能力方面,Skywork R1V 具备顶尖的逻辑推理和数学分析能力,在权威的 MATH500 和 AIME 基准测试中分别获得 94.0 和 72.0 分;在视觉理解能力方面,Skywork R1V 成功地将文本推理及思维链推导能力转移到了视觉任务中,在 MMMU 和 MathVista 等视觉推理基准中获得了 69 和 67.5 分。

图片

昆仑万维指出,Skywork R1V 模型拥有三项关键技术创新,具体如下:

文本推理能力的多模态高效迁移

昆仑万维团队首次提出利用 Skywork-VL 的视觉投影器,无需重新训练语言模型和视觉编码器,即可将文本推理能力高效迁移到视觉任务,同时保留了原有推理文本能力(AIME 72.0,MATH500 94.0)。

多模态混合式训练(Iterative SFT+GRPO)

通过结合迭代监督微调(Iterative SFT)与 GRPO 强化学习,分阶段对齐视觉与文本的表征,实现跨模态任务的高效融合,显著提升跨模态任务的表现,使模型在 MMMU 基准中达到 69 分,在 MathVista 达到 67.5 分,与更大规模的闭源模型相当。通过反复迭代高质量数据与高难度数据的组合,实现模型知识的持续巩固与错误修正,显著提高了多模态推理的精度和泛化能力。

图片

▲ 多模态混合式训练(来源:Skywork R1V 技术报告)

自适应长度思维链蒸馏

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,以避免模型“过度思考”,从而提高推理效率。结合多阶段自蒸馏策略,进一步提升数据生成与推理过程的质量,促进模型在复杂多模态任务中的表现。

图片

▲ 自适应长度思维链蒸馏(来源:Skywork R1V 技术报告)
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...