中国电信 AI 研究院完成首个全国产化万卡万参大模型训练,TeleChat2-115B 对外开源
GoodNav 9 月 28 日报道,“中国电信人工智能研究院”官方公众号今日宣布,中国电信人工智能研究院(以下简称 TeleAI)成功实现了国内首个基于全国产化万卡集群训练的万亿参数大模型,并正式开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。
官方指出,这一科研成果标志着国产大模型训练实现了真正的全国产化替代,正式迈入全国产自主创新、安全可控的新阶段。
TeleChat2-115B 是基于中国电信自主研发的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”完成训练的。介绍中提到,在确保训练精度的前提下,采用多种优化手段提升模型训练的效率和稳定性,实现了 GPU 同等算力计算效率超过 93%,模型有效训练时长占比超过 98%。
针对超大参数模型的训练,TeleAI 采用了大量小模型进行扩展,从而验证不同模型结构的有效性。同时,在数据配比方面,基于小模型实验结果反馈,采用回归预测模型,得到了较优的数据配比。
在后训练(Post-Training)方面,TeleAI 首先针对数学、代码和逻辑推理等内容合成了大量问答数据,用于 SFT(监督式微调)第一阶段的模型训练。
其次,采用迭代式更新策略,利用模型对提示词数据进行指令复杂性提升与多样性扩充,通过模型合成和人工标注提升答案质量,并利用拒绝采样获取优质 SFT 数据及 RM(奖励模型)代表性数据,用于 SFT 训练和 DPO(偏好对齐)训练,以及模型效果的迭代。
附开源地址
GitHub:
-
https://github.com/Tele-AI/TeleChat2
Gitee:
-
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
-
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
-
https://modelers.cn/models/TeleAI/TeleChat2-115B