Loading...

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

GoodNav 3 月 11 日报道,OpenAI 今天发布了最新的研究,旨在通过 CoT(思维链)的监控方式观察推理模型的“想法”,以防止 AI 大模型出现胡言乱语、隐藏真实意图等问题,同时这也是监督超级模型的一种有效工具。

需要注意的是,AI 有时会出现胡说八道的情况,这被称为 AI 幻觉。此外,AI 有时也会懈怠或故意表现不佳,例如在问题过于复杂时欺骗用户或直接放弃任务。

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

OpenAI 选择了最新发布的前沿模型 o3-mini 作为监控对象,并以性能较低的 GPT-4o 模型作为监控工具。测试的环境是编码任务,要求 AI 在代码库中实现功能,以通过单元测试。

测试结果表明,CoT 监控器在识别系统性“奖励黑客”行为方面表现优异,召回率高达 95%,显著超越了单纯监控行为时的 60%。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...