Loading...

Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

GoodNav 于4月8日报道,深度求索(DeepSeek)与清华大学携手推出了一项全新的AI对齐技术SPCT(自我原则点评调优),突破了传统依赖大量训练数据的局限,通过推理阶段对输出质量进行动态优化。

根据研究团队在4月4日发布的论文,该技术采用“原则合成-响应生成-批判过滤-原则优化”的递归框架,使模型能够在推理过程中动态调整输出。

SPCT方法分为两个阶段:首先是拒绝式微调,作为冷启动阶段,让GRM适应不同类型的输入,确保以正确格式生成原则和点评内容;其次是基于规则的在线强化学习阶段,通过结果奖励机制鼓励GRM生成更优质的原则和点评,提升推理阶段的可扩展性。

Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

在测试中,270亿参数的DeepSeek-GRM模型表现显示,通过针对每个查询进行32次采样的推理计算,达到了671B规模模型的性能水平。该硬件感知设计采用混合专家系统(MoE),支持128k token的上下文窗口,单次查询的延迟仅为1.4秒。

报告指出SPCT显著降低了高性能模型的部署门槛,以DeepSeek-GRM模型为例,其训练成本约为1.2万美元(注:现汇率约合87871元人民币),MT-Bench得分为8.35。

模型 规模 MT-Bench 预估训练成本
DeepSeek-GRM 27B 8.35 $12,000
Nemotron-4 340B 8.41 $1.2 million
GPT-4o 1.8T 8.72 $6.3 million

相比之下,340B的Nemotron-4需要120万美元才能获得8.41分。虽然OpenAI的1.8T参数模型GPT-4o得到了8.72分,但其成本高达630万美元(现汇率约合4613.2万元人民币),而DeepSeek-GRM的成本仅占其1/525。此项技术还将人工标注需求减少至90%,并使能耗较DPO降低73%,为实时机器人控制等动态应用场景提供了新的可能性。

Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...