科大讯飞联合华为,率先实现国产算力大规模跨节点专家并行集群推理
GoodNav 3 月 11 日报道,科大讯飞研究院今日宣布,科大讯飞与华为在国产算力领域达成了重要进展,双方联合团队首次实现了国产算力集群上 MoE 模型的大规模跨节点专家并行推理,这是在 DeepSeek 公开其 MoE 模型训练与推理方案之后,行业内首个基于国产算力的创新解决方案。
联合团队通过深入的软硬件协同创新,充分挖掘硬件的潜力,在多个关键技术层面上完成了昇腾集群的验证与部署。在算子融合方面,团队在 MLA 预处理阶段采用了 Vector 和 Cube 异构计算单元进行并行流水操作,并将多个小算子重构为单一的原子级计算单元,消除了小算子下发的开销,使得 MLA 前处理时延降低超过 50%,大幅提升性能。
科大讯飞研究院进一步说明,在混合并行策略与通信计算并行优化方面,团队构建了 TP(张量并行)+EP(专家并行)的混合范式:在 MLA 计算层采用机内 TP 并行,充分利用机内高速互联的优势,减少跨机通信损耗;通过创新 MoE 专家分层调度,均匀地将专家计算节点分配到 64 个卡上,定制 AllToAll 通信协议,实现专家数据交换效率提升 40%;同时建立跨机和机内的双层通信架构,将跨机流量降低了 60%;并研发了路由专家负载均衡算法,使得各卡之间的负载差异小于 10%,集群的吞吐量提升了 30%。
通过创新的分布式架构与算法的协同优化,联合团队在国产算力上获得了显著的性能突破。单卡的静态内存占用减少至双机部署的 1/4,效率提高了 75%,专家计算密度增加至 4 倍,推理吞吐量提升了 3.2 倍,端到端时延降低了 50%。
科大讯飞研究院表示,这一创新的解决方案将会应用于讯飞星火深度推理模型的训练加速,预计训练时的推理效率将提升 200%。此外,基于此方案的推理引擎也实现了在国产算力上对 DeepSeek V3 和 R1 的高效推理。
根据科大讯飞的公告,科大讯飞的深度推理大模型星火 X1 已完成升级,尽管模型参数量比行业同类产品少一个数量级,星火 X1 的数学能力与 DeepSeek R1 和 OpenAI o1 密切对比,在中文数学各类任务中“均表现出领先优势”。