Loading...

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

AI前沿资讯2周前发布 GOODNAV.NET

350 0 0

在 DeepSeek-V3 更新的同一夜，阿里又推出了通义千问 Qwen 的新版本——Qwen2.5-VL-32B-Instruct。

之前已发布的开源家族视觉语言模型 Qwen2.5-VL 包含 3B、7B 和 72B 三个不同的尺寸。

而这次的 32B 版本在尺寸与性能之间取得了更好的平衡，支持本地运行。同时经过强化学习的改进，在以下三个方面表现尤为突出：

更能符合人类的回答偏好；
具备更强的数学推理能力；
在图像解析、内容识别以及视觉逻辑推导等任务中，展现出了更高的准确性和细粒度分析能力。

与近期开源的 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT 等相比，Qwen2.5-VL-32B 在文本处理能力上也实现了与同规模模型相当的 SOTA 表现。在多个基准测试中，Qwen2.5-VL-32B 甚至超过了 72B 版本。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

例如，根据一张交通指示牌的照片，Qwen2.5-VL-32B 能进行如下细致的图像理解和推理：

我正在这条路上开一辆大卡车，现在是12点。我在13点之前能否到达110公里远的地方？

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

Qwen2.5-VL-32B 会首先分析时间、距离及卡车的限速，然后逐步推算得出正确的答案：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

模型已经开源，大家可以前往自行测试～

Qwen2.5-VL-32B 更多表现示例

官方最近发布的技术博客中也展示了更多示例。

在数学推理方面，几何体分析也游刃有余：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

同样，先进行问题分析，然后再通过四个小步骤推导出正确答案：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

下列复杂问题也可以顺利解决：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

它能够逐一推理，归纳出构造规律：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

而对于下述图片理解则显而易见：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

模型同样支持多轮深度提问：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

模型开源，已能实测

如今，阿里已将 Qwen2.5-VL-32B-Instruct 放在 Hugging Face 上。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

用户可以直接在 Qwen Chat 上体验 Qwen2.5-VL-32B，感兴趣的朋友可以尝试一下。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

一些反应迅速的用户已经在 MLX Community 中运行了该模型：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

Hacker News 上，网友就 DeepSeek 和 Qwen 的最新动向展开了新的热烈讨论，纷纷表示：

开源的胜利，奥尔特曼错了。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

值得注意的是，在春节时期，DeepSeek 和阿里通义千问 Qwen 多次几乎同时发布了新模型，这次又一次带着惊喜一起发布。

看来，杭州确实是在商量着一起发布？？？

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

参考链接：

[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/
[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
[3]https://news.ycombinator.com/item?id=43464068

本文来自微信公众号：量子位（ID：QbitAI），作者：西风，原标题《32B 本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强》

# AI前沿资讯 # Qwen # 阿里开源 # 阿里模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里达摩院开源 CoI-Agent：一键生成科研 idea 的 AI 研究助手

GoodNav.net

1.3K

GitHub Copilot 拥抱多模型，将引入 Claude 3.5 Sonnet 和 Gemini 1.5 Pro

GoodNav.net

1.3K

谷歌推出安全分析 AI 工具 Big Sleep，实战告捷抓出 SQLite 堆栈缓冲区下溢漏洞

GoodNav.net

1.2K

N谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能，可自动检索相关网络资源

GoodNav.net

355

谷歌最便宜 AI 模型 Gemini 1.5 Flash 8B 将商用：腰斩击穿价 0.15 美元买百万 tokens 输出

GoodNav.net

1.4K

微软推出面向临床医生的 AI 语音助手 Dragon Copilot

GoodNav.net

525

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved