标签:微软推理

微软开源 1.58bit 推理框架:千亿参数模型量化后单 CPU 可跑,速度每秒 5-7 个 token

微软推出 1bit 大规模模型推理框架!现在,经过量化的 1000 亿参数大模型可以在单个 CPU 上运行,速度可达到每秒 5-7 个 token。例如,在苹果 M2 的新设备上...