阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

260 0 0

GoodNav 3 月 27 日消息，今天凌晨，阿里云推出了通义千问 Qwen 模型家族的新一代端到端多模态旗舰模型——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上进行了开源发布。

阿里云表示，该模型是专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本及自然语音合成输出。以下是其主要特点的总结：

全能创新架构：Qwen团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 引入了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。
实时音视频交互：该架构旨在支持完全实时的交互，包括分块输入和即时输出。
自然流畅的语音生成：在语音生成的自然性和稳定性方面超过了许多现有流式和非流式的替代方案。
全模态性能优势：在与同规模的单模态模型进行基准测试时，展示了优异的性能。Qwen2.5-Omni 在音频能力方面优于类似规模的 Qwen2-Audio，并与 Qwen2.5-VL-7B 维持相同水平。
卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现出色。

根据官方的介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块像大脑一样，负责处理文本、音频、视频等多模态输入，并生成高层语义表征和相应的文本内容；Talker 模块则类似发声器官，以流式方式接收来自 Thinker 的实时语义表征和文本，流畅合成离散的语音单元。Thinker 基于 Transformer 解码器架构，并融合音频/图像编码器进行特征提取；而 Talker 则使用双轨自回归的 Transformer 解码器设计，直接在训练和推理过程中接收来自 Thinker 的高维表征，并共享全部历史上下文信息，从而形成一个端到端的统一模型架构。

模型架构图

在模型性能方面，Qwen2.5-Omni 在图像、音频、音视频等各种模态下的表现均优于类似规模的单模态模型和封闭源模型，如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench 中，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现突出，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲ 模型性能图