Loading...

蚂蚁集团推出两款 MoE 大模型,用国产芯片训练成本显著降低

GoodNav 3 月 24 日报道称,根据证券时报的信息,蚂蚁集团的 Ling 团队最近在预印版 Arxiv 平台上发布了一篇题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》的技术论文,宣布推出两款不同规模的 MoE(混合专家)大型语言模型——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。文中还提出了一系列创新方法,实现了在低性能硬件上高效训练大模型,从而显著降低成本。

据了解,百灵轻量版的参数规模为 168 亿(激活参数 27.5 亿),而增强版的基础模型参数规模高达 2900 亿(激活参数 288 亿),其性能都是行业内的佼佼者。实验结果显示,其 3000 亿参数的 MoE 大模型能够在国产 GPU 的低性能设备上实现高效训练,性能与完全依赖英伟达芯片的同等规模稠密模型及 MoE 模型相当。

目前,MoE 模型的训练通常需要依赖于英伟达 H100 / H800 等高性能 GPU,这不仅成本高昂,而且因芯片短缺限制了在资源受限环境中的应用。蚂蚁集团的 Ling 团队提出了“不使用高级 GPU”来扩展模型的目标,通过创新的训练策略来突破资源和预算的限制。具体策略包括:架构和训练策略上的创新,使用动态参数分配与混合精度调度技术;升级训练异常处理机制,自适应容错恢复系统以缩短响应时间;优化模型评估流程,自动化评测框架使验证周期缩短超过 50%;提升工具调用能力,基于知识图谱的指令微调来提高复杂任务的执行精度。

在五种不同的硬件配置下,Ling 团队对 9 万亿个 token 进行了 Ling-Plus 的预训练。结果表明,使用高性能硬件配置训练 1 万亿 token 的预训练成本大约为 635 万元人民币,而采用蚂蚁的优化方法后,低规格硬件的训练成本降低至约 508 万元,节省了近 20%,并且性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。

之前,DeepSeek 通过算法创新和工程优化,利用英伟达 H800 训练出性能卓越的 V3 与 R1 模型,为降低成本和提高效率开辟了新途径。若蚂蚁集团的技术成果得到验证和推广,将有助于寻找成本更低、效率更高的国产芯片或其他替代方案,从而进一步降低对英伟达芯片的依赖。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...