蚂蚁集团回应新模型训练成本降低：基于不同芯片持续调优，会逐步开源

730 0 0

GoodNav 在 3 月 24 日的消息指出，针对蚂蚁“百灵”大模型训练成本的相关报道，蚂蚁集团回应表示，针对不同类型的芯片，公司正在持续进行优化，以降低 AI 应用的成本，目前已经取得了一定的进展，并将逐步通过开源方式进行分享。

事件背景如下：

最近，蚂蚁集团 Ling 团队在 Arxiv 预印版平台上发表了题为《每一个 FLOP 都至关重要：无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》的技术成果论文，宣布推出两种不同规模的 MoE（混合专家）大语言模型——百灵轻量版（Ling-Lite）与百灵增强版（Ling-Plus），并提出了一系列创新方法，以实现在低性能硬件上对大模型的高效训练，从而显著降低成本。

百灵轻量版的参数规模为 168 亿（激活参数 27.5 亿），而增强版的基座模型参数规模则高达 2900 亿（激活参数 288 亿），性能均达到行业领先水平。实验结果表明，其 3000 亿参数的 MoE 大模型可以在国产 GPU 的低性能设备上完成高效训练，其性能与完全使用英伟达芯片的同规模稠密模型及 MoE 模型相当。

相关阅读：