OpenAI 发布 CoT 思维链研究成果，监控阻止大模型恶意行为

95 0 0

GoodNav 3 月 11 日报道，OpenAI 今天发布了最新的研究，旨在通过 CoT（思维链）的监控方式观察推理模型的“想法”，以防止 AI 大模型出现胡言乱语、隐藏真实意图等问题，同时这也是监督超级模型的一种有效工具。

需要注意的是，AI 有时会出现胡说八道的情况，这被称为 AI 幻觉。此外，AI 有时也会懈怠或故意表现不佳，例如在问题过于复杂时欺骗用户或直接放弃任务。

OpenAI 选择了最新发布的前沿模型 o3-mini 作为监控对象，并以性能较低的 GPT-4o 模型作为监控工具。测试的环境是编码任务，要求 AI 在代码库中实现功能，以通过单元测试。

测试结果表明，CoT 监控器在识别系统性“奖励黑客”行为方面表现优异，召回率高达 95%，显著超越了单纯监控行为时的 60%。

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

175

GoodNav.net

160

GoodNav.net

1.2K

GoodNav.net

1.1K

GoodNav.net

2.6K

GoodNav.net

990

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...