“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

1K 0 0

GoodNav 12 月 25 日报道，OpenAI 的研究团队提出了一种新方法，名为“深思熟虑的对齐”（Deliberative Alignment），旨在提高 AI 模型的安全性，并且在 o 系列模型中已经取得了显著的成果。

确保大型语言模型（LLMs）遵循明确的道德和安全标准目前面临许多挑战。现有的对齐技术，如监督微调（SFT）和基于人类反馈的强化学习（RLHF），存在一些局限性，包括被操纵的风险，这可能导致生成有害内容、拒绝合理请求、或在陌生场景下处理困难等问题。

这些问题往往源于当前安全培训的缺陷，即模型通过数据间接推断标准，而非直接学习。这种方法通常缺乏对复杂提示的考虑，限制了它们在微妙或对抗性情境中的表现。

备注：该方法通过直接教导模型安全规范，训练模型在生成响应之前推理这些规范，将安全原则融入推理过程。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

整个过程分为两个阶段。第一阶段，利用监督微调（SFT）训练模型参考并推理安全规范，利用从基础模型生成的数据集。第二阶段则是通过强化学习（RL），使用奖励模型根据安全基准评估性能，进一步优化模型的推理能力。

与依赖人工标注数据的方法不同，“深思熟虑的对齐”使用模型生成的数据和思维链（CoT）推理，显著降低了安全训练对资源的需求。

OpenAI 的 o1 模型已经应用了该技术，在抵抗越狱提示方面表现优异，StrongREJECT 基准测试中得分高达 0.88，远超 GPT-4o 的 0.37；此外，该技术还有效减少误拒，在 XSTest 数据集中，o1 模型对于良性提示的准确率达到 93%。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型进行明确的安全策略推理，为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

参考

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

385

GoodNav.net

1.3K

GoodNav.net

1.4K

GoodNav.net

1.4K

GoodNav.net

415

GoodNav.net

1.3K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...