Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet
还未正式发布,Deepseek-v3 就意外曝光了?!
据 Reddit 用户称,v3 已在 API 和网页上上线,并且一些跑分榜单已新鲜出炉。
在 Aider 的多语言编程测试中,Deepseek-v3 超越了 Claude 3.5 Sonnet,名列第 1 位,紧随其后的是 o1。
(与 Deepseek-v2.5 相比,完成率从 17.8% 大幅提升至 48.4%。)
此外,Deepseek-v3 在 LiveBench 测评中,现为最强开源 LLM,在非推理模型中,仅次于 gemini-exp-1206,位居第二。
目前 Hugging Face 已推出 Deepseek-v3(Base)的开源权重,但尚未上传模型介绍。
综合各方内容来看,Deepseek-v3 显著超越前代 v2 和 v2.5——
与 v2、v2.5 的配置对比
首先,Deepseek-v3 的基本配置如下:
-
采用 685B 参数的 MoE 架构;
-
具有 256 个专家,使用 sigmoid 函数作为路由方式,每次选择前 8 个专家 (Top-k=8);
-
支持 64K 上下文,默认支持 4K,最长支持 8K 上下文;
-
约 60 个 tokens / s;
顺便一提,在 Aider 测评中,击败 Claude 3.5 Sonnet 的版本是 Instruct 版本(该版本尚未发布)。
为了深入了解 Deepseek-v3 的升级情况,机器学习爱好者 Vaibhav (VB) Srivastav (以下简称瓦哥)对配置文件进行了详细分析,并总结出 v3 与 v2、v2.5 的主要区别。
与 v2(在今年 5 月 6 日官宣开源)相比,AI 整理后的结果如下:
可以看出,v3 其实是 v2 的升级版,在各项参数上均有所提升。
瓦哥还特别指出了模型结构的三大关键变化:
第一,在 MOE 结构中,v3 使用 sigmoid 函数作为门控功能,取代了 v2 中的 softmax 函数。这使得模型能够在更广泛的专家集合中进行选择,而不是像 softmax 函数那样更倾向于少数几个专家。
第二,v3 引入了一种新的 Top-k 选择方法 noaux_tc,无需辅助损失。
简单来说,MoE 模型通常需要辅助损失来帮助训练,以更好地选择前 k 个相关专家处理每个输入样本。
而新的方法能够在不依赖辅助损失的情况下,直接使用主要任务的损失函数有效选择前 k 个专家。这有助于简化训练过程并提升训练效率。
为了便于理解,瓦哥用 DeepSeek 进行了逐步解释。
这是一种基于群体的专家选择算法,通过将专家分组,并在每组内部选择最出色的 k 名专家。
第三,v3 引入了一个新的参数 e_score_correction_bias,旨在调整专家评分,以在专家选择或模型训练中提升性能。
另外,针对与 v2.5(在本月 10 日官宣开源)的对比也有了一些结果,后者主要引入了联网搜索功能,并在各项能力上全面提升。
同样经过 AI 整理后的数据如下:
具体而言,v3 在配置上超越了 v2.5,专家数量更多、中间层尺寸更大,以及每个 token 的专家数量增加。
从上述结果来看,瓦哥连连表示,明年有机会一定要与中国的开源团队见面。(doge)
网友测试 Deepseek-v3
关于 v3 的实际表现,独立开发者 Simon Willison(Django 框架的共同创始人)也第一时间进行了测试。
例如,开始时作了自我介绍。
我是 DeepSeek-V3,基于 OpenAI 的 GPT-4 架构……
接着考察其图像生成能力,要求生成一张鹈鹕骑自行车的 SVG 图。
生成的最终图像如下:
此外,在另一位网友的测试中,Deepseek-v3 也表示自己来自 OpenAI?
该网友推测,这可能与训练时使用了 OpenAI 模型的回复有关。
总之,尚未正式宣布的 Deepseek-v3 已在 LiveBench 上获取了最强开源 LLM 的位置,在一些用户看来,其表现远超专注于期货的 OpenAI。(手动狗头)
抱抱脸:
-
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
参考链接:
-
[1]https://x.com/reach_vb/status/1871956999971414277
-
[2]https://simonwillison.net/2024/Dec/25/deepseek-v3/
-
[3]https://x.com/reach_vb/status/1872000205954089011
-
[4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/
本文来自微信公众号:量子位(ID:QbitAI),作者:一水