Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o
GoodNav 于4月8日报道,深度求索(DeepSeek)与清华大学携手推出了一项全新的AI对齐技术SPCT(自我原则点评调优),突破了传统依赖大量训练数据的局限,通过推理阶段对输出质量进行动态优化。
根据研究团队在4月4日发布的论文,该技术采用“原则合成-响应生成-批判过滤-原则优化”的递归框架,使模型能够在推理过程中动态调整输出。
SPCT方法分为两个阶段:首先是拒绝式微调,作为冷启动阶段,让GRM适应不同类型的输入,确保以正确格式生成原则和点评内容;其次是基于规则的在线强化学习阶段,通过结果奖励机制鼓励GRM生成更优质的原则和点评,提升推理阶段的可扩展性。
在测试中,270亿参数的DeepSeek-GRM模型表现显示,通过针对每个查询进行32次采样的推理计算,达到了671B规模模型的性能水平。该硬件感知设计采用混合专家系统(MoE),支持128k token的上下文窗口,单次查询的延迟仅为1.4秒。
报告指出SPCT显著降低了高性能模型的部署门槛,以DeepSeek-GRM模型为例,其训练成本约为1.2万美元(注:现汇率约合87871元人民币),MT-Bench得分为8.35。
模型 | 规模 | MT-Bench | 预估训练成本 |
---|---|---|---|
DeepSeek-GRM | 27B | 8.35 | $12,000 |
Nemotron-4 | 340B | 8.41 | $1.2 million |
GPT-4o | 1.8T | 8.72 | $6.3 million |
相比之下,340B的Nemotron-4需要120万美元才能获得8.41分。虽然OpenAI的1.8T参数模型GPT-4o得到了8.72分,但其成本高达630万美元(现汇率约合4613.2万元人民币),而DeepSeek-GRM的成本仅占其1/525。此项技术还将人工标注需求减少至90%,并使能耗较DPO降低73%,为实时机器人控制等动态应用场景提供了新的可能性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...