Loading...

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

DeepSeek V3 已进行升级,最新版本为 V3-0324

官方称这是一个“小版本升级”,然而许多用户的实测结果显示,这次更新的改进可谓相当显著。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

例如,把流行的小球弹跳测试,提升难度到四维空间超立方体也毫无问题

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

哇,如果这真的是个小更新,那我无法想象更大的更新会是怎样的。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

在编程方面,只需一条提示词即可开发出一个完整的产品着陆页,具备自适应布局和动画效果,评价甚至与 Claude 3.7 Sonnet 相当。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

虽然发布时间不久,正式测评结果尚未公布,但开发者 Xeophon 的个人基准测试显示,所有指标都有明显提升,成为该测试中表现最好的非推理模型

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

非推理模型同样拥有“啊哈时刻”

DeepSeek-V3-0324 并不属于推理模型,在给出答案之前不会展示思考过程,但依然遵循一定的逻辑进行问题分解。

遇到死胡同时,它还展现了自动返回上一步重新思考的能力。

如今,“9.11 和 9.9 那个大”、“Straberry 有多少个 r”已不再是问题,最新让 AI 感到困扰的挑战是“如何让 7 米长的甘蔗通过一个 2 米高、1 米宽的门”。

在量子位的测试中,DeepSeek-V3-0324 起初也遭遇了困境,像它的前辈以及其他AI一样。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

经历挫折后,它开始重新审视问题的本质,后续虽然仍陷入误区,但在中文解题过程中突然夹杂一句英语思考,就像 DeepSeek-R1 技术报告中的“啊哈时刻”

等等,这似乎与之前的对角线方法有些相似,或许我忽略了什么。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

领悟之后,它终于走上了正确的轨道,并注意到了问题中未直接提到的隐含条件。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

尽管在计算过程中,它依然没有完全领会问题的本质,但至少找出了可行的解决方案,并意识到了自身的误区。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

依然是免费和开源

这样的优秀模型依然保持免费和开源,权重文件已经迅速上线 HuggingFace,并采用最宽松的 MIT 许可证。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

所有权重文件加起来大约占用 688GB 的硬盘空间,仍与初代 v3 保持一致,这表明它依旧是 671B 参数的 MoE 模型,目前尚无更多技术细节,期待官方后续的公告。

用户可以在官网、官方 App(关闭深度思考功能即可)和 HuggingFace 等平台体验 v3-0324。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

此外,您也可以在大型模型竞技场与其他模型进行比拼,不过投票结果还需等一段时间才会出炉。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

当然大家最期待的还是,v3 更新了,那么 r2 还会远吗?

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

官网试玩:

https://chat.deepseek.com/

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md

参考链接:

  • [1]https://x.com/TheXeophon/status/1904225899957936314

  • [2]https://x.com/Yuchenj_UW/status/1904223627509465116

  • [3]https://x.com/risphereeditor/status/1904194061780590773

本文来源于微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《DeepSeek V3“小版本升级”实测效果惊人,接近 V3.5,非推理模型也有“啊哈时刻”,7 米甘蔗过 2 米门想通了》

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...