Loading...

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

AI前沿资讯5个月前发布 GOODNAV.NET

1.3K 0 0

GoodNav 11 月 5 日报道，腾讯今日发布了 Hunyuan-Large 大模型，声明这是当前业界已开源的最大Transformer基础的MoE模型，其总参数达 3890 亿（389B），激活参数为 520 亿（52B）。

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

今天，腾讯在 Hugging Face 上开源了 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8，并发布了技术报告与训练推理手册，详细说明了模型的能力以及训练与推理的相关操作。

该模型的技术优势包括：

高质量合成数据：借助合成数据增强训练，Hunyuan-Large 能够获得更丰富的表征，处理长上下文输入，并更有效地泛化到未见数据。
KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著降低了KV缓存的内存占用和计算成本，提升推理吞吐量。
专家特定学习率调整：为不同的专家设置不同的学习率，确保每个子模型能够有效学习数据，并对整体性能作出贡献。
长上下文处理能力：预训练模型支持最多 256K 的文本序列，Instruct 模型支持 128K 的文本序列，显著增强了长上下文任务的处理能力。
全面的基准测试：在多种语言和任务上进行了广泛的实验，验证了 Hunyuan-Large 的实际应用效果和安全性。

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

▲ Hunyuan-Large 预训练模型与激活参数数量相似的 Dense 和 MoE 竞争对手比较

以下是相关链接：

论文：https://arxiv.org/pdf/2411.02265
Github：https://github.com/Tencent/Tencent-Hunyuan-Large
Huggingface：https://huggingface.co/tencent/Tencent-Hunyuan-Large
腾讯云：https://cloud.tencent.com/product/hunyuan

# AI前沿资讯 # 大模型 # 混元 # 腾讯

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯元宝回应旧版服务协议含“霸王条款”：使用元宝并不会改变版权归属

GoodNav.net

440

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

GoodNav.net

1K

古农文垂直领域大语言模型“齐民”发布，基于我国大量农业古籍文本训练

GoodNav.net

1.6K

N清华-腾讯人工智能通识公益课程落地 200 余所乡村小学

GoodNav.net

215

腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

GoodNav.net

1.4K

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

GoodNav.net

1.4K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved