Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

AI前沿资讯3个月前发布 GOODNAV.NET

1.4K 0 0

还未正式发布，Deepseek-v3 就意外曝光了？！

据 Reddit 用户称，v3 已在 API 和网页上上线，并且一些跑分榜单已新鲜出炉。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

在 Aider 的多语言编程测试中，Deepseek-v3 超越了 Claude 3.5 Sonnet，名列第 1 位，紧随其后的是 o1。

（与 Deepseek-v2.5 相比，完成率从 17.8% 大幅提升至 48.4%。）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

此外，Deepseek-v3 在 LiveBench 测评中，现为最强开源 LLM，在非推理模型中，仅次于 gemini-exp-1206，位居第二。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

目前 Hugging Face 已推出 Deepseek-v3（Base）的开源权重，但尚未上传模型介绍。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

综合各方内容来看，Deepseek-v3 显著超越前代 v2 和 v2.5——

与 v2、v2.5 的配置对比

首先，Deepseek-v3 的基本配置如下：

采用 685B 参数的 MoE 架构；
具有 256 个专家，使用 sigmoid 函数作为路由方式，每次选择前 8 个专家 (Top-k=8)；
支持 64K 上下文，默认支持 4K，最长支持 8K 上下文；
约 60 个 tokens / s；

顺便一提，在 Aider 测评中，击败 Claude 3.5 Sonnet 的版本是 Instruct 版本（该版本尚未发布）。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

为了深入了解 Deepseek-v3 的升级情况，机器学习爱好者 Vaibhav (VB) Srivastav （以下简称瓦哥）对配置文件进行了详细分析，并总结出 v3 与 v2、v2.5 的主要区别。

与 v2（在今年 5 月 6 日官宣开源）相比，AI 整理后的结果如下：

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

可以看出，v3 其实是 v2 的升级版，在各项参数上均有所提升。

瓦哥还特别指出了模型结构的三大关键变化：

第一，在 MOE 结构中，v3 使用 sigmoid 函数作为门控功能，取代了 v2 中的 softmax 函数。这使得模型能够在更广泛的专家集合中进行选择，而不是像 softmax 函数那样更倾向于少数几个专家。

第二，v3 引入了一种新的 Top-k 选择方法 noaux_tc，无需辅助损失。

简单来说，MoE 模型通常需要辅助损失来帮助训练，以更好地选择前 k 个相关专家处理每个输入样本。

而新的方法能够在不依赖辅助损失的情况下，直接使用主要任务的损失函数有效选择前 k 个专家。这有助于简化训练过程并提升训练效率。

为了便于理解，瓦哥用 DeepSeek 进行了逐步解释。

这是一种基于群体的专家选择算法，通过将专家分组，并在每组内部选择最出色的 k 名专家。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

第三，v3 引入了一个新的参数 e_score_correction_bias，旨在调整专家评分，以在专家选择或模型训练中提升性能。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

另外，针对与 v2.5（在本月 10 日官宣开源）的对比也有了一些结果，后者主要引入了联网搜索功能，并在各项能力上全面提升。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

同样经过 AI 整理后的数据如下：

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

具体而言，v3 在配置上超越了 v2.5，专家数量更多、中间层尺寸更大，以及每个 token 的专家数量增加。

从上述结果来看，瓦哥连连表示，明年有机会一定要与中国的开源团队见面。(doge）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

网友测试 Deepseek-v3

关于 v3 的实际表现，独立开发者 Simon Willison（Django 框架的共同创始人）也第一时间进行了测试。

例如，开始时作了自我介绍。

我是 DeepSeek-V3，基于 OpenAI 的 GPT-4 架构……

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

接着考察其图像生成能力，要求生成一张鹈鹕骑自行车的 SVG 图。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

生成的最终图像如下：

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

此外，在另一位网友的测试中，Deepseek-v3 也表示自己来自 OpenAI？

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

该网友推测，这可能与训练时使用了 OpenAI 模型的回复有关。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

总之，尚未正式宣布的 Deepseek-v3 已在 LiveBench 上获取了最强开源 LLM 的位置，在一些用户看来，其表现远超专注于期货的 OpenAI。（手动狗头）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

抱抱脸：

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

参考链接：

[1]https://x.com/reach_vb/status/1871956999971414277
[2]https://simonwillison.net/2024/Dec/25/deepseek-v3/
[3]https://x.com/reach_vb/status/1872000205954089011
[4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

本文来自微信公众号：量子位（ID：QbitAI），作者：一水