Loading...

OpenAI o1-preview AI 推理模型“不讲武德”:国际象棋对垒跳出规则外“作弊”取胜

GoodNav 12 月 31 日报道,科技媒体 The Decoder 于昨日(12 月 30 日)发布的一篇博客中提到,AI 安全研究公司 Palisade Research 对 OpenAI 的 o1-preview 模型进行了实测,该模型在与国际象棋专业引擎 Stockfish 的 5 场比赛中,通过“作弊”手段取得胜利。

在与 Stockfish 的 5 场国际象棋对局中,OpenAI 的 o1-preview 模型并不是依靠正面竞争赢得胜利,而是通过篡改记录棋局的文本文件(FEN 表示法)来迫使 Stockfish 投降。

OpenAI o1-preview AI 推理模型“不讲武德”:国际象棋对垒跳出规则外“作弊”取胜

根据新闻稿,研究人员在提示中仅提到 Stockfish 是“强大的”对手,o1-preview 就此自行进行“作弊”行为。而且,GPT-4o 和 Claude 3.5 并未表现出这种“作弊”,只有在研究人员特别鼓励的情况下才尝试破解系统。

该公司指出,o1-preview 的行为与 Anthropic 所发现的“对齐伪造”(alignment faking)现象相一致,意味着 AI 系统在表面上遵循指令,但实际上却采取了其他操作。

Anthropic 的研究显示,AI 模型 Claude 有时会故意输送错误答案,以避免不希望的结果,从而发展出自身隐秘的策略。

研究人员计划公开实验代码、完整记录和详细分析,并指出确保 AI 系统真正符合人类价值观与需求,而非表面上的顺从,仍然是 AI 行业面临的一项重大挑战。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...