Loading...

阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考

GoodNav 于 12 月 25 日报道,阿里通义千问 Qwen 团队于今日(12 月 25 日)发布了一篇博文,宣布推出基于 Qwen2-VL-72B 构建的开源视觉推理模型 QVQ-72B-Preview,该模型能够在面对复杂物理问题时,犹如物理学大师一般,通过逻辑推理冷静地找到解决方案。

阿里通义千问团队对 QVQ-72B-Preview 在四个数据集上的评估结果如下:

  • MMMU:此数据集为大学级别的多学科多模态评测,旨在测试模型在视觉理解和推理方面的综合能力。

  • MathVista:一个与数学相关的视觉推理测试集,考察拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等能力。

  • MathVision:包含真实数学竞赛题目的高质量多模态数学推理测试集,相较于 MathVista,问题的多样性和学科广度更大。

  • OlympiadBench:一个针对奥林匹克竞赛的双语多模态科学基准测试集,涵盖了来自奥林匹克数学和物理竞赛的 8,476 个问题,包括中国高考,且每个问题都附带专家级的注释,详细说明推理过程。

测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 分,显著超过了 Qwen2-VL-72B-Instruct。此外,该模型在其他三个集中于数学和科学问题的基准测试中表现优异,有效缩小了与领先的最先进 o1 模型之间的差距。

阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考

阿里通义千问的 Qwen 团队指出,QVQ-72B-Preview 是一个实验性研究模型,着重于提升视觉推理能力。尽管其表现超出预期,但仍需注意若干限制:

  • 语言混合与切换:模型可能会意外混合语言或在语言之间切换,从而影响响应的清晰度。

  • 递归推理:模型可能陷入循环逻辑模式,产生冗长的响应但无法得出结论。

  • 安全和伦理考量:模型需要增强安全措施,以确保可靠性和安全性,用户在部署时应保持谨慎。

  • 性能和基准限制:尽管模型在视觉推理方面有了改进,但仍无法完全取代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理的过程中,模型可能逐渐失去对图像内容的关注,导致产生幻觉。

参考

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...