Loading...

MIT 研究揭示 AI 并无稳定价值观,“对齐”挑战远超预期

GoodNav 4 月 10 日报道,几个月前的一项研究表明,随着人工智能AI)的复杂性增加,它可能会形成“价值体系”,例如更注重自身的利益而非人类的福祉。不过,麻省理工学院(MIT)最近发布的一篇论文对此一说进行了质疑,认为 AI 实际上并不具备任何连贯的价值观。

MIT 研究揭示 AI 并无稳定价值观,“对齐”挑战远超预期

MIT 研究的共同作者指出,他们的研究结果显示,使 AI 系统“对齐”,即确保模型根据人们的期望和可靠的方式进行操作,可能比我们通常认为的要困难得多。他们强调,当前已知的 AI 系统会产生“幻觉”和进行模仿,这使得它们在许多方面变得难以预测。

MIT 博士生、该研究共同作者斯蒂芬·卡斯珀(Stephen Casper)在接受 TechCrunch 采访时表示:“我们能确定的一点是,模型并不符合许多关于稳定性、可推断性和可控性的假设。”

据了解,卡斯珀和他的团队分析了来自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的若干最新模型,以探讨这些模型在何种程度上展现出明确的“观点”和价值观(如个人主义与集体主义)。他们还研究了这些观点是否能够被“引导”,即是否可以被修改,以及模型在不同情境下对这些观点的坚持程度。

共同作者表示,没有任何模型在其偏好上表现出一致性。根据提示的表述和框架的不同,它们会展现出截然不同的观点。

卡斯珀认为,这为模型高度的“不一致性和不稳定性”提供了有力的证据,甚至有可能根本无法吸收类似人类的偏好。

卡斯珀表示:“通过所有这些研究,我最大的收获是认识到模型并不是真正具备某种稳定、连贯的信念和偏好的系统。相反,它们的本质是模仿者,进行各种捏造,并发表各种轻率的言论。”

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...