Loading...

腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

GoodNav 11 月 5 日报道,腾讯今日发布了 Hunyuan-Large 大模型,声明这是当前业界已开源的最大Transformer基础的MoE模型,其总参数达 3890 亿(389B),激活参数为 520 亿(52B)。

腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

今天,腾讯在 Hugging Face 上开源了 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8,并发布了技术报告与训练推理手册,详细说明了模型的能力以及训练与推理的相关操作。

该模型的技术优势包括:

  • 高质量合成数据:借助合成数据增强训练,Hunyuan-Large 能够获得更丰富的表征,处理长上下文输入,并更有效地泛化到未见数据。

  • KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著降低了KV缓存的内存占用和计算成本,提升推理吞吐量。

  • 专家特定学习率调整:为不同的专家设置不同的学习率,确保每个子模型能够有效学习数据,并对整体性能作出贡献。

  • 长上下文处理能力:预训练模型支持最多 256K 的文本序列,Instruct 模型支持 128K 的文本序列,显著增强了长上下文任务的处理能力。

  • 全面的基准测试:在多种语言和任务上进行了广泛的实验,验证了 Hunyuan-Large 的实际应用效果和安全性。

腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

▲ Hunyuan-Large 预训练模型与激活参数数量相似的 Dense 和 MoE 竞争对手比较

以下是相关链接:

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...