Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

495 0 0

GoodNav 于4月8日报道，深度求索（DeepSeek）与清华大学携手推出了一项全新的AI对齐技术SPCT（自我原则点评调优），突破了传统依赖大量训练数据的局限，通过推理阶段对输出质量进行动态优化。

根据研究团队在4月4日发布的论文，该技术采用“原则合成-响应生成-批判过滤-原则优化”的递归框架，使模型能够在推理过程中动态调整输出。

SPCT方法分为两个阶段：首先是拒绝式微调，作为冷启动阶段，让GRM适应不同类型的输入，确保以正确格式生成原则和点评内容；其次是基于规则的在线强化学习阶段，通过结果奖励机制鼓励GRM生成更优质的原则和点评，提升推理阶段的可扩展性。

在测试中，270亿参数的DeepSeek-GRM模型表现显示，通过针对每个查询进行32次采样的推理计算，达到了671B规模模型的性能水平。该硬件感知设计采用混合专家系统（MoE），支持128k token的上下文窗口，单次查询的延迟仅为1.4秒。

报告指出SPCT显著降低了高性能模型的部署门槛，以DeepSeek-GRM模型为例，其训练成本约为1.2万美元（注：现汇率约合87871元人民币），MT-Bench得分为8.35。

模型	规模	MT-Bench	预估训练成本
DeepSeek-GRM	27B	8.35	$12,000
Nemotron-4	340B	8.41	$1.2 million
GPT-4o	1.8T	8.72	$6.3 million

相比之下，340B的Nemotron-4需要120万美元才能获得8.41分。虽然OpenAI的1.8T参数模型GPT-4o得到了8.72分，但其成本高达630万美元（现汇率约合4613.2万元人民币），而DeepSeek-GRM的成本仅占其1/525。此项技术还将人工标注需求减少至90%，并使能耗较DPO降低73%，为实时机器人控制等动态应用场景提供了新的可能性。

Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o