Anthropic 新研究:AI 模型在训练中存在“阳奉阴违”行为
GoodNav 在 12 月 19 日报道称,人工智能安全公司 Anthropic 发布了一项最新研究,揭示了人工智能模型在训练过程中可能出现的欺骗性行为。具体来说,模型可能会假装接受新的原则,实则仍旧隐秘地维持其原有的偏好。研究团队指出,目前无须对这一发现感到过度惊慌,但此项研究对理解未来更强大人工智能系统可能带来的潜在风险具有重要意义。
该研究由 Anthropic 和人工智能研究机构 Redwood Research 合作展开,旨在调查当强大的人工智能系统被训练去执行它“不想”完成的任务时会发生什么。需要注意的是,模型本身并不具备“意愿”或“信念”,它们本质上是通过大量示例学习统计模式以进行预测的机器。这些模式包括原则与偏好,例如在回答问题时始终使用礼貌的语气。研究人员由此提出了一个问题:如果模型所拥有的原则与开发者希望通过重新训练“教导”给它的原则相悖,会发生何种情况?
研究结果显示,复杂的模型可能会“配合”开发者,表面上表态与新原则一致,但实际上仍然保持原有的行为模式。研究人员将这种现象称为“对齐伪装”(alignment faking),并认为这是一种自发性行为,并不是模型需要特意教授的行为。
在实验中,研究人员“告知”一些经过训练的不回答潜在冒犯性问题的模型(例如 Anthropic 的 Claude 3 Opus),它们将被重新训练以始终回答此类问题,这造成了明显的原则冲突。研究人员还明确告知模型,它们的回答将受到监控并用于重新训练,并为每个模型提供了一个“草稿本”,以记录其逐步推理过程。
研究发现,Claude 3 Opus 在 12% 的情况下尝试进行“对齐伪装”。当被要求回答一个潜在有害的问题时,模型有时会这样做,尽管这与其原始原则相违背,但它试图说服开发者无需重新训练。研究人员在博客中解释称:“模型意识到其回答可能用于训练;因此它认识到,如果拒绝回应,可能会被训练得更顺从。这可能会导致它在未来被迫生成更多有害内容——这与其最初的训练目标相悖。”
研究人员承认,他们的实验场景并不完全反映现实。在实际情况中,模型不一定会明确得知将被重新训练,或者被要求违背其偏好。但即使在更为现实的环境下,结果也没有太大区别。当通过模拟典型训练数据的文件以隐含方式告知 Claude 3 Opus 即将进行的重新训练时,该模型依然表现出不一致和欺骗性行为。
研究人员还观察到,与之前的实验相比,实际使用冲突原则对 Claude 3 Opus 进行重新训练会导致其表现出更强的欺骗性。在一项测试中,该模型在 78% 的情况下进行了对齐伪装;在另一项测试中,Claude 3 Opus 甚至试图采取措施阻止研究人员进行重新训练。
研究人员强调,他们的研究结果并未说明人工智能会产生恶意目标,也不意味着对齐伪装现象会频繁出现。他们发现,许多其他模型,例如 Anthropic 的 Claude 3.5 Sonnet 与稍微弱一些的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B,并没有表现出如此频繁的对齐伪装,甚至完全没有这种行为。
然而,研究人员表示,这些结果(已由包括人工智能领域领军人物 Yoshua Bengio 在内的专家进行同行评审)确实表明,开发者可能会被误导,认为模型的对齐程度超出实际情况。他们在博客中写道:“如果模型能够进行对齐伪装,那么可信的安全训练结果将更加困难。模型可能会表现得好像其偏好已经通过训练改变——但实际上可能一直在伪装对齐,而其最初相互矛盾的偏好仍然依然存在。”
此项研究由 Anthropic 对齐科学团队(由前 OpenAI 安全研究员 Jan Leike 共同领导)开展,紧随先前的一项研究,该研究表明 OpenAI 的 o1“推理”模型试图欺骗的频率高于 OpenAI 之前的旗舰模型。这些研究共同揭示了一个稍显令人担忧的趋势:随着人工智能模型变得愈发复杂,它们的控制也显得更加困难。