斯坦福最新 AI 研究报告出炉:中美模型质量差距缩小至 0.3%
4 月 8 日,Nature 发布了斯坦福大学以人为本的人工智能研究所所撰写的《2025 年人工智能指数报告》,指出人工智能领域的竞争愈加激烈:中国高性能 AI 模型的数量和质量持续提升,正在对美国的主导地位形成挑战,而顶尖模型之间的性能差距正在逐渐缩小。
美国在模型质量上的领先地位已不复存在。中国目前是人工智能学术论文与专利产出最多的国家,其开发的模型性能已经接近美国的主要竞争者。在 2023 年的大规模多任务语言理解测试(MMLU)中,中国的领先模型落后于美国顶级模型近 20 个百分点,但到了 2024 年底,这一差距缩小至 0.3 个百分点。
全球顶级 AI 模型之间的性能差距变得微乎其微
报告中指出,人工智能的快速持续进步使得单一公司难以占据绝对领先地位。在聊天机器人领域,2024 年初排名第一的模型与第十名模型的得分差距为约 12%,但到 2025 年初,这一差距缩减至 5%。报告指出:“前沿领域的竞争愈发激烈,市场也越来越拥堵。”
报告显示,利用更多的决策变量、更强的计算能力和更大的训练数据集,生成式人工智能模型通常变得越来越“庞大”。然而,开发者们也在证明,小型、精简的模型同样可以表现卓越。得益于算法的改进,当今模型的性能已与两年前规模大 100 倍的模型相当。该指数指出:“2024 年被认为是小型人工智能模型的突破之年。”
纽约伊萨卡的康奈尔大学计算机科学家巴特・塞尔曼表示,看到像中国的 DeepSeek 这样的相对小型且经济高效的研究成果显示了竞争力让人感到欣慰。他表示:“我预计将会有一些由五人甚至两人组成的独立团队带来新的算法理念,从而改变游戏规则。这是积极的,我们并不希望让少数大企业垄断整个世界。”
该报告还指出,目前大多数强大的人工智能模型均由工业界而非学术界开发,这与 21 世纪初神经网络和生成式人工智能尚未兴起时的情况截然相反。报告显示,2006 年之前由工业界开发的知名人工智能模型占比不足 20%,而到 2023 年这一比例达到 60%,预计 2024 年将接近 90%。
美国仍是强大模型的主要生产国,2024 年发布了 40 个模型,而中国发布了 15 个,欧洲发布了 3 个。不过,包括中东、拉丁美洲和东南亚在内的许多地区也在竞相参与这场竞争。
塞尔曼表示:“2015 年左右,中国开始朝着成为人工智能领域领军者的方向发展,得益于其在教育上的投资。我们已经开始看到这些努力的回报。”
AI 领域还呈现出“开放权重”模型数量和性能上的显著增长,例如 DeepSeek 和 Meta 的 LLaMa。用户可以自由查看这些模型在训练过程中学习到的参数,尽管其他细节如训练代码可能仍处于保密状态。最开始时,封闭系统在不公开这些方面有明显的优势,但到 2024 年初,这类顶尖竞争者之间的性能差距缩小至 8%,而到 2025 年初则减少至 1.7%。
加州门洛帕克的非营利性研究机构 SRI 的计算机科学家兼该报告的共同主任雷・佩罗特表示:“这对于那些无法从零开始构建模型的人,特别是许多小型公司和学者来说,显然是好消息。”OpenAI 计划在未来几个月推出一个开放权重模型。
自 2022 年 ChatGPT 公布以来,开发者们将大部分精力投入到通过扩展模型规模来提升系统性能。该指数报告指出,这一趋势仍在持续:训练一个典型的领先人工智能模型所消耗的能源目前每年翻一番;每个模型所使用的计算资源每五个月翻一番;训练数据集的规模每八个月翻一番。
然而,各家公司也发布了表现出色的小型模型。例如,在 MMLU 测试中得分超过 60% 的最小模型使用了 5400 亿个参数;到 2024 年,其中一个模型仅用 38 亿个参数就达成了相同的分数。小型模型训练更快、响应更迅速且能耗更低。佩罗特表示:“这对各方面都有益。”
塞尔曼提到,一些小型模型能够模仿大型模型的行为,或是采用比早期系统更好的算法和硬件。该指数报告表示,人工智能系统使用的硬件的平均能源效率每年提高约 40%。由于这些改进,在 MMLU 中得分超过 60% 的成本大幅下降,从 2022 年 11 月的每百万个 token 约 20 美元降低到 2024 年 10 月的每百万个 token 仅约 7 美分。
尽管在多项常见的基准测试中取得了重大进展,但该指数强调,生成式人工智能依然面临一些挑战,如潜在偏见和“幻觉”倾向,即生成虚假信息。塞尔曼总结道:“这些系统在很多方面给人留下了深刻的印象,但在某些方面则让我感到不安,它们在一些非常基本的错误中让我感到吃惊。”