马斯克 AI 超算细节曝光:已投资 4 亿美元,百万 GPU 电力缺口大
在北京时间4月2日,埃隆·马斯克(Elon Musk)曾宣布,其人工智能创业公司xAI计划在美国田纳西州的孟菲斯市建设全球最大的超级计算机。《商业内幕》所获文件显示,该公司正在为这一项目投入数亿美元,但面临相当大的电力不足问题。
自2024年6月首次公布该项目以来,xAI已经向孟菲斯的规划与发展机构提交了14份建筑许可证申请,整体预算金额达到4.059亿美元(约合29亿元人民币)。
文件还指出,xAI无法从孟菲斯本地电网获取足够的电力来支持100万个GPU的操作,除非该公司自行在项目地点建设发电设施。马斯克此前表示,该项目需扩建十倍,以容纳100万个GPU。
这些许可证申请涉及电气、机械、管道等各类工程,其中包括一项价值3000万美元的计算机设备安装工程及一项造价390万美元的围栏工程,以防止车辆碰撞。
电力缺口问题严重
截至目前,xAI已向孟菲斯照明、天然气和水处理公司(MLGW)申请了300兆瓦的电力供应,并获得了150兆瓦的供电许可。
xAI计划在超级计算机项目的现场安装天然气涡轮机以自给电力。该公司表示,是否能够完全使用300兆瓦的电网电力将取决于该地区“重大基础设施升级”和电网改善。同时,xAI同时使用了卡特彼勒旗下Solar Turbines的燃气发电机,这些发电机总的发电能力为250兆瓦。
xAI在许可申请中指出,“若无更多场地发电,我们无法满足客户的需求。”田纳西河谷管理局(TVA)负责田纳西州及周边六个州的电力供应,已于今年2月表示,计划在未来几年内投资160亿美元,以应对其辖区内的历史负荷增长。这一增长主要受xAI、其他数据中心及该地区电池制造商扩张的影响。
田纳西河谷管理局的发言人在声明中表示,其董事会“需要审查并批准任何超过100兆瓦的新负荷,以确保电力系统的可靠性。”
加州大学河滨分校电气与计算机工程的副教授任绍磊(Shaolei Ren)表示,凭借自主的现场发电能力,xAI很可能为20万个英伟达H100 GPU提供电力,但进一步扩展算力会面临困难。
他表示:“尽管仍有可能增加算力,但这意味着需要采用激进的超额预订策略。”超额预订是数据中心常用的一种做法,数据中心向客户提供的合同电力额度通常超过实际可用电力,因为并不是所有客户同时使用其全部预订的电力。
根据任绍磊的计算,运行100万个GPU可能需要超过1千兆瓦的电力,这相当于xAI目前在孟菲斯所能获得电力的四倍。