Loading...

蚂蚁集团回应新模型训练成本降低:基于不同芯片持续调优,会逐步开源

GoodNav 在 3 月 24 日的消息指出,针对蚂蚁“百灵”大模型训练成本的相关报道,蚂蚁集团回应表示,针对不同类型的芯片,公司正在持续进行优化,以降低 AI 应用的成本,目前已经取得了一定的进展,并将逐步通过开源方式进行分享。

事件背景如下:

最近,蚂蚁集团 Ling 团队在 Arxiv 预印版平台上发表了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》的技术成果论文,宣布推出两种不同规模的 MoE(混合专家)大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),并提出了一系列创新方法,以实现在低性能硬件上对大模型的高效训练,从而显著降低成本

百灵轻量版的参数规模为 168 亿(激活参数 27.5 亿),而增强版的基座模型参数规模则高达 2900 亿(激活参数 288 亿),性能均达到行业领先水平。实验结果表明,其 3000 亿参数的 MoE 大模型可以在国产 GPU 的低性能设备上完成高效训练,其性能与完全使用英伟达芯片的同规模稠密模型及 MoE 模型相当。

相关阅读:

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...