AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
GoodNav 12 月 20 日报道,Meta 公司联合华盛顿大学和卡内基梅隆大学组建了一个研究团队,共同研发了 ExploreToM 框架,其主要目的是更加有效地评估与训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。
心智理论
心智理论(Theory of Mind,ToM)被认为是人类社交智能的一个重要基石,使我们能够理解他人的思考、意图和信念。这种认知能力在有效沟通与协作中至关重要,是复杂社交互动的核心。
使AI具备ToM能力,对于开发能够与人类无缝沟通的智能体至关重要,但目前的大型语言模型(LLM)在ToM方面仍面临显著挑战。
现有基准往往缺乏复杂性和多样性,从而导致对模型能力的高估。例如,许多基准测试基于简单的预设场景,无法模拟人类推断心理状态所需的复杂推理。
ExploreToM 框架
ExploreToM通过生成多样化和可扩展的对抗性数据集,为提升AI的ToM能力打下了坚实基础。该研究突出了现有模型的局限性,并指出高质量训练数据在缩小这些差距方面的潜力。
在数据集方面,ExploreToM利用A*搜索算法和特定领域的语言生成多样化且难度较高的测试数据集,模拟复杂的社会情境,挑战LLM的认知极限。
与现有基准测试相比,ExploreToM通过创建对抗性故事场景,旨在揭示LLM在ToM推理中的盲点。
此外,该框架还引入了非对称信念更新机制,能够模拟不同角色在相同情境中持有不同观点的复杂社交互动。
主流模型测试效果
在ExploreToM数据集上的测试结果显示,GPT-4o和Llama-3.1-70B模型的准确率分别仅为9%和0%,反映出现有LLM在处理复杂ToM推理时的不足。
通过在ExploreToM数据上的微调,模型在经典ToMi基准测试中的准确率提高了27个百分点,从而验证了该框架的有效性。
参考地址