Loading...

谷歌研究:合成数据使大模型数学推理能力提升八倍

GoodNav 于 4 月 7 日报道,近期,谷歌、卡内基梅隆大学与 MultiOn 的联合研究小组发布了一项关于合成数据在大型模型训练中的应用的新研究成果。

谷歌研究:合成数据使大模型数学推理能力提升八倍

根据专注于人工智能的研究机构 Epoch AI 的报道,目前全球约有 300 万亿个高质量文本训练标记可公开使用。然而,随着 ChatGPT 等大型模型的迅速发展,对训练数据的需求也在急剧增加,预计在 2026 年之前,现有数据将会耗尽。因此,合成数据提供了一个至关重要的替代选择。

研究人员主要探讨了两种类型的合成数据:正向数据和负向数据。正向数据由高性能的大型模型(如 GPT-4 和 Gemini 1.5 Pro)生成的问题解答示例,用于教导模型如何解决数学问题。然而,仅依靠正向数据进行训练存有不足。一方面,这种训练方式可能无法全面揭露问题解决过程的逻辑,模型可能仅通过模式匹配而缺乏真实理解;另一方面,当训练数据量增加时,模型可能会学习到虚假的相关性,从而在处理新问题时泛化能力降低。

谷歌研究:合成数据使大模型数学推理能力提升八倍

因此,研究者引入了负向数据,这类数据是经过验证的错误问题解决步骤。此数据帮助模型识别并避开错误,提高其逻辑推理能力。尽管使用负向数据存在一定挑战,因错误步骤可能包含误导性信息,但研究人员通过直接偏好优化(DPO)的方法成功使模型能够从错误中学习,强调了每个解决步骤的重要性。

DPO 方法为每个解决步骤分配一个优势值,反映其相对理想解的价值。研究表明,高优势步骤是正确解决方案的关键,而低优势步骤可能显示出模型推理中的问题。通过这些优势值,模型在强化学习框架中能够动态调整其策略,从而更有效地从合成数据中学习和改善。

为了验证合成数据的有效性,研究团队在 GSM8K 和 MATH 数据集上,使用了 DeepSeek-Math-7B 和 LLaMa2-7B 等模型进行了全面测试。结果显示,通过正向和负向合成数据预训练的大模型在数学推理任务上的表现提高了八倍。这一研究充分展示了合成数据在提升大型模型逻辑推理能力方面的巨大潜力。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...