字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%
GoodNav 3 月 10 日报道,字节跳动的豆包大模型团队已正式宣布开源一项针对 MoE(混合专家模型)架构的关键性优化技术,这一技术能够使大模型的训练效率提升 1.7 倍,同时成本节约达 40%。据了解,该技术名为 COMET,目前已实际应用于字节的万卡集群训练,为节省了数百万 GPU 小时的训练算力。
值得注意的是,豆包团队早前发布了新一代稀疏架构 UltraMem,大幅降低了模型推理的成本,减少了 83%。此次,再次开源了 COMET,进一步提升了模型训练的成本效益。
目前,COMET 的核心代码已经开源,并计划支持 Triton 等编译生态。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...