摩尔线程开源 MT-MegatronLM 和 MT-TransformerEngine 两大 AI 框架
GoodNav 3 月 17 日消息,摩尔线程官方今天发布公告,正式开源了 MT-MegatronLM 和 MT-TransformerEngine 两大 AI 框架。这两个框架通过深度结合 FP8 混合训练策略和高性能算子库,能够在国产全功能 GPU 上实现混合的并行训练和推理,从而增强训练的效率和稳定性。
根据介绍,MT-MegatronLM 是一个针对全功能 GPU 的开源混合并行训练框架,高效支持 dense 模型、多模态模型和 MoE(混合专家)模型的训练;而 MT-TransformerEngine 则主要用于 对 Transformer 模型进行训练和推理优化,通过算子融合和并行加速策略等技术,发挥摩尔线程全功能 GPU 的高密度计算潜力以及 memory bound 算子的效率。这两个框架在硬件适配和算法创新的深度协作方面取得了技术突破:
混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,灵活应对各种模型架构的复杂计算场景;
FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,显著提升训练效率;
高性能算子库:通过与高性能算子库 muDNN 和通信库 MCCL 的深度集成,系统性优化了计算密集型任务和多卡协同的通信开销;同时,结合摩尔线程开源的 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境最大化并行训练性能;
异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚到最近的稳定节点继续训练,显著提高大规模训练的稳定性;
完整的兼容性:两个框架兼容 GPU 主流生态,既确保现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供底层支持。
实际应用效果示例如下:
高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,利用 FP8 可以实现几乎无损的 loss 情况下 MFU 达到 90% 以上;(如下图所示)
▲ 借助摩尔线程 FP8 混合精度加速技术在 loss 无损下实现 28% 的加速
复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 能完全接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功复现 DeepSeek V3 的训练流程,支持 MLA、MTP 及多种专家平衡策略;
性能大幅优化:通过多种 Transformer 算子融合技术,显著提高了内存带宽利用率,缓解了 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。
摩尔线程官方表示将持续对 MT-MegatronLM 和 MT-TransformerEngine 框架进行优化,并引入一系列功能,具体如下:
Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;
多种 FP8 优化策略:独创 FP8 优化策略,以提高训练性能和稳定性;
异步 checkpoint 策略:增强训练过程中的容错能力和效率;
优化后的重计算策略:减少计算和显存开销,提升训练速度;
容错训练策略:独特的容错训练算法,增强训练过程中的容错能力;
集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提高计算性能和效率。
附上开源地址如下:
-
MT-MegatronLM 开源地址:https://github.com/MooreThreads/MT-MegatronLM
-
MT-TransformerEngine 开源地址:https://github.com/MooreThreads/MT-TransformerEngine
-
摩尔线程 Simumax 开源地址:https://github.com/MooreThreads/SimuMax