Loading...

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

GoodNav 3 月 25 日报道,DeepSeek-V3 模型于昨日进行了小版本更新,今晚官方将正式发布该更新的详细信息。

以下为全文内容:

DeepSeek V3 模型现已完成小版本的升级,当前版本号为 DeepSeek-V3-0324。用户可以通过官方网页、App 或小程序进入对话界面后,关闭深度思考以体验新版本。API 接口以及使用方式保持不变。对于非复杂推理任务,建议使用新版本 V3 模型,即可享受更加流畅的速度和全面提升的对话效果。

模型能力提升概述

推理任务表现增强

新版 V3 模型借鉴了 DeepSeek-R1 模型训练时采用的强化学习技术,显著提升了推理类任务的表现,特别是在数学和代码相关评测集上,其得分超过了 GPT-4.5。

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

新版 V3 模型在百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)方面的表现均有所提升。

前端开发能力提升

在 HTML 等前端代码生成任务方面,新版 V3 模型生成的代码更具可用性,视觉效果也更加美观且富有设计感。

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

动图展示由模型生成的多个小球在指定空间内运动的 p5.js 程序,其中包含多个可调节重力和摩擦力等参数的滑动按钮,并以赛博朋克风格的 HTML 呈现。

中文写作优化

在中文写作任务上,新版 V3 模型在 R1 的基础上进行了进一步优化,并特别提升了中长篇文本的创作质量。

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

中文搜索能力改进

新版 V3 模型在联网搜索场景下,对于报告生成类指令的输出内容不仅更加详尽准确,排版效果也更加清晰美观。

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

此外,新版 V3 模型在工具调用、角色扮演、问答对话等功能方面也有了显著提升。

模型开源信息

DeepSeek-V3-0324 保持与之前 DeepSeek-V3 相同的基础模型,仅对后训练方法进行了改进。私有化部署时,只需更新 checkpoint 和 tokenizer_config.json(涉及工具调用相关的变更)。模型参数约为 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。V3-0324 模型权重下载地址如下:

Model Scope: 

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

Huggingface: 

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

与 DeepSeek-R1 一致,本次我们的开源仓库(包括模型权重)采用 MIT License,并允许用户利用模型输出以及通过模型蒸馏等方式进行其他模型的训练。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...