Loading...

超节点算力集群创新联合体成立:中国移动、浪潮、阿里云等参与,打造 GPU 卡间互联体系

GoodNav 于 12 月 26 日报道,以“创新驱动智启新程”为主题的 2024 年中国人工智能大会(CCAI)在本月于北京正式开幕,会议上举行了超节点算力集群创新联合体的揭牌仪式。

在仪式上,北京市科委、中关村管委会、中国移动、浪潮集团、阿里云、清华大学、中国科学院等机构共同为“超节点算力集群创新联合体”揭牌。

图片

根据中国移动的介绍,人工智能大模型的迅速发展使得其参数规模向超万亿级别迈进,模型的性能与泛化能力持续提高,对高性能智算基础设施的需求愈加迫切。在这一背景下,传统单台智算服务器最多只能支持 8 张 GPU 的算力模型,正逐渐被“超节点算力集群”取代,以满足不断增加的算力需求。

“超节点算力集群创新联合体”的 GPU 卡间互联是基于中国移动自主研发的 OISA(全向智感互联)协议构建的,OISA 旨在创建一个高效、智能、灵活且开放的 GPU 卡间互联体系,该架构致力于支持大模型训练、推理及高性能计算等数据密集型 AI 应用。

为了实现这一目标,OISA 采用了全向连接设计,以确保大规模 GPU 之间的对等通信;同时引入智能感知设计,通过定义流量感知标签,并结合流控与重传机制,以优化数据传输效率。

在协议层面,OISA 采用高效的报文格式,支持内存与消息的多语义融合、多层次流控重传以及预设集合通信加速等关键技术,从而实现高带宽、低延迟和高可靠的 GPU 通信能力。

在现行的 Gen1.1 版本中,OISA 支持超节点内部任意 GPU 卡间的点对点读写互联带宽达到 896GB/s,每个 OISA-Switch 芯片支持 128 个端口、交换容量为 51.2T

从中国移动方面获悉,该公司未来将全面支持超节点算力集群创新联合体的发展,并计划与产业界合作,优先完成基于 OISA 互联技术的 32/64 卡超节点产品落地,同时加速 128 卡超节点产品的设计与实施

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...