Loading...

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

还未正式发布,Deepseek-v3 就意外曝光了?!

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

据 Reddit 用户称,v3 已在 API 和网页上上线,并且一些跑分榜单已新鲜出炉。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

在 Aider 的多语言编程测试中,Deepseek-v3 超越了 Claude 3.5 Sonnet,名列第 1 位,紧随其后的是 o1。

(与 Deepseek-v2.5 相比,完成率从 17.8% 大幅提升至 48.4%。)

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

此外,Deepseek-v3 在 LiveBench 测评中,现为最强开源 LLM,在非推理模型中,仅次于 gemini-exp-1206,位居第二。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

目前 Hugging Face 已推出 Deepseek-v3(Base)的开源权重,但尚未上传模型介绍。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

综合各方内容来看,Deepseek-v3 显著超越前代 v2 和 v2.5——

与 v2、v2.5 的配置对比

首先,Deepseek-v3 的基本配置如下:

  • 采用 685B 参数的 MoE 架构;

  • 具有 256 个专家,使用 sigmoid 函数作为路由方式,每次选择前 8 个专家 (Top-k=8);

  • 支持 64K 上下文,默认支持 4K,最长支持 8K 上下文;

  • 约 60 个 tokens / s;

顺便一提,在 Aider 测评中,击败 Claude 3.5 Sonnet 的版本是 Instruct 版本(该版本尚未发布)。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

为了深入了解 Deepseek-v3 的升级情况,机器学习爱好者 Vaibhav (VB) Srivastav (以下简称瓦哥)对配置文件进行了详细分析,并总结出 v3 与 v2、v2.5 的主要区别

v2(在今年 5 月 6 日官宣开源)相比,AI 整理后的结果如下:

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

可以看出,v3 其实是 v2 的升级版,在各项参数上均有所提升。

瓦哥还特别指出了模型结构的三大关键变化

第一,在 MOE 结构中,v3 使用 sigmoid 函数作为门控功能,取代了 v2 中的 softmax 函数。这使得模型能够在更广泛的专家集合中进行选择,而不是像 softmax 函数那样更倾向于少数几个专家。

第二,v3 引入了一种新的 Top-k 选择方法 noaux_tc,无需辅助损失。

简单来说,MoE 模型通常需要辅助损失来帮助训练,以更好地选择前 k 个相关专家处理每个输入样本。

而新的方法能够在不依赖辅助损失的情况下,直接使用主要任务的损失函数有效选择前 k 个专家。这有助于简化训练过程并提升训练效率。

为了便于理解,瓦哥用 DeepSeek 进行了逐步解释。

这是一种基于群体的专家选择算法,通过将专家分组,并在每组内部选择最出色的 k 名专家。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

第三,v3 引入了一个新的参数 e_score_correction_bias,旨在调整专家评分,以在专家选择或模型训练中提升性能。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

另外,针对与 v2.5(在本月 10 日官宣开源)的对比也有了一些结果,后者主要引入了联网搜索功能,并在各项能力上全面提升。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

同样经过 AI 整理后的数据如下:

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

具体而言,v3 在配置上超越了 v2.5,专家数量更多、中间层尺寸更大,以及每个 token 的专家数量增加。

从上述结果来看,瓦哥连连表示,明年有机会一定要与中国的开源团队见面。(doge)

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

网友测试 Deepseek-v3

关于 v3 的实际表现,独立开发者 Simon Willison(Django 框架的共同创始人)也第一时间进行了测试。

例如,开始时作了自我介绍。

我是 DeepSeek-V3,基于 OpenAI 的 GPT-4 架构……

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

接着考察其图像生成能力,要求生成一张鹈鹕骑自行车的 SVG 图。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

生成的最终图像如下:

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

此外,在另一位网友的测试中,Deepseek-v3 也表示自己来自 OpenAI?

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

该网友推测,这可能与训练时使用了 OpenAI 模型的回复有关。

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

总之,尚未正式宣布的 Deepseek-v3 已在 LiveBench 上获取了最强开源 LLM 的位置,在一些用户看来,其表现远超专注于期货的 OpenAI。(手动狗头)

Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

抱抱脸:

  • https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

参考链接:

  • [1]https://x.com/reach_vb/status/1871956999971414277

  • [2]https://simonwillison.net/2024/Dec/25/deepseek-v3/

  • [3]https://x.com/reach_vb/status/1872000205954089011

  • [4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

本文来自微信公众号:量子位(ID:QbitAI),作者:一水

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...