阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
在 DeepSeek-V3 更新的同一夜,阿里又推出了通义千问 Qwen 的新版本——Qwen2.5-VL-32B-Instruct。
之前已发布的开源家族视觉语言模型 Qwen2.5-VL 包含 3B、7B 和 72B 三个不同的尺寸。
而这次的 32B 版本在尺寸与性能之间取得了更好的平衡,支持本地运行。同时经过强化学习的改进,在以下三个方面表现尤为突出:
-
更能符合人类的回答偏好;
-
具备更强的数学推理能力;
-
在图像解析、内容识别以及视觉逻辑推导等任务中,展现出了更高的准确性和细粒度分析能力。
与近期开源的 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT 等相比,Qwen2.5-VL-32B 在文本处理能力上也实现了与同规模模型相当的 SOTA 表现。在多个基准测试中,Qwen2.5-VL-32B 甚至超过了 72B 版本。
例如,根据一张交通指示牌的照片,Qwen2.5-VL-32B 能进行如下细致的图像理解和推理:
我正在这条路上开一辆大卡车,现在是12点。我在13点之前能否到达110公里远的地方?
Qwen2.5-VL-32B 会首先分析时间、距离及卡车的限速,然后逐步推算得出正确的答案:
模型已经开源,大家可以前往自行测试~
Qwen2.5-VL-32B 更多表现示例
官方最近发布的技术博客中也展示了更多示例。
在数学推理方面,几何体分析也游刃有余:
同样,先进行问题分析,然后再通过四个小步骤推导出正确答案:
下列复杂问题也可以顺利解决:
它能够逐一推理,归纳出构造规律:
而对于下述图片理解则显而易见:
模型同样支持多轮深度提问:
模型开源,已能实测
如今,阿里已将 Qwen2.5-VL-32B-Instruct 放在 Hugging Face 上。
用户可以直接在 Qwen Chat 上体验 Qwen2.5-VL-32B,感兴趣的朋友可以尝试一下。
一些反应迅速的用户已经在 MLX Community 中运行了该模型:
Hacker News 上,网友就 DeepSeek 和 Qwen 的最新动向展开了新的热烈讨论,纷纷表示:
开源的胜利,奥尔特曼错了。
值得注意的是,在春节时期,DeepSeek 和阿里通义千问 Qwen 多次几乎同时发布了新模型,这次又一次带着惊喜一起发布。
看来,杭州确实是在商量着一起发布???
参考链接:
-
[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/
-
[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
-
[3]https://news.ycombinator.com/item?id=43464068
本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题《32B 本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强》