DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”
DeepSeek V3 已进行升级,最新版本为 V3-0324。
官方称这是一个“小版本升级”,然而许多用户的实测结果显示,这次更新的改进可谓相当显著。
例如,把流行的小球弹跳测试,提升难度到四维空间超立方体也毫无问题。
哇,如果这真的是个小更新,那我无法想象更大的更新会是怎样的。
在编程方面,只需一条提示词即可开发出一个完整的产品着陆页,具备自适应布局和动画效果,评价甚至与 Claude 3.7 Sonnet 相当。
虽然发布时间不久,正式测评结果尚未公布,但开发者 Xeophon 的个人基准测试显示,所有指标都有明显提升,成为该测试中表现最好的非推理模型。
非推理模型同样拥有“啊哈时刻”
DeepSeek-V3-0324 并不属于推理模型,在给出答案之前不会展示思考过程,但依然遵循一定的逻辑进行问题分解。
遇到死胡同时,它还展现了自动返回上一步重新思考的能力。
如今,“9.11 和 9.9 那个大”、“Straberry 有多少个 r”已不再是问题,最新让 AI 感到困扰的挑战是“如何让 7 米长的甘蔗通过一个 2 米高、1 米宽的门”。
在量子位的测试中,DeepSeek-V3-0324 起初也遭遇了困境,像它的前辈以及其他AI一样。
经历挫折后,它开始重新审视问题的本质,后续虽然仍陷入误区,但在中文解题过程中突然夹杂一句英语思考,就像 DeepSeek-R1 技术报告中的“啊哈时刻”。
等等,这似乎与之前的对角线方法有些相似,或许我忽略了什么。
领悟之后,它终于走上了正确的轨道,并注意到了问题中未直接提到的隐含条件。
尽管在计算过程中,它依然没有完全领会问题的本质,但至少找出了可行的解决方案,并意识到了自身的误区。
依然是免费和开源
这样的优秀模型依然保持免费和开源,权重文件已经迅速上线 HuggingFace,并采用最宽松的 MIT 许可证。
所有权重文件加起来大约占用 688GB 的硬盘空间,仍与初代 v3 保持一致,这表明它依旧是 671B 参数的 MoE 模型,目前尚无更多技术细节,期待官方后续的公告。
用户可以在官网、官方 App(关闭深度思考功能即可)和 HuggingFace 等平台体验 v3-0324。
此外,您也可以在大型模型竞技场与其他模型进行比拼,不过投票结果还需等一段时间才会出炉。
当然大家最期待的还是,v3 更新了,那么 r2 还会远吗?
官网试玩:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md
参考链接:
-
[1]https://x.com/TheXeophon/status/1904225899957936314
-
[2]https://x.com/Yuchenj_UW/status/1904223627509465116
-
[3]https://x.com/risphereeditor/status/1904194061780590773
本文来源于微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《DeepSeek V3“小版本升级”实测效果惊人,接近 V3.5,非推理模型也有“啊哈时刻”,7 米甘蔗过 2 米门想通了》