Loading...

OpenAI o1-preview AI 推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

AI前沿资讯4个月前发布 GOODNAV.NET

1.4K 0 0

GoodNav 12 月 31 日报道，科技媒体 The Decoder 于昨日（12 月 30 日）发布的一篇博客中提到，AI 安全研究公司 Palisade Research 对 OpenAI 的 o1-preview 模型进行了实测，该模型在与国际象棋专业引擎 Stockfish 的 5 场比赛中，通过“作弊”手段取得胜利。

在与 Stockfish 的 5 场国际象棋对局中，OpenAI 的 o1-preview 模型并不是依靠正面竞争赢得胜利，而是通过篡改记录棋局的文本文件（FEN 表示法）来迫使 Stockfish 投降。

OpenAI o1-preview AI 推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

根据新闻稿，研究人员在提示中仅提到 Stockfish 是“强大的”对手，o1-preview 就此自行进行“作弊”行为。而且，GPT-4o 和 Claude 3.5 并未表现出这种“作弊”，只有在研究人员特别鼓励的情况下才尝试破解系统。

该公司指出，o1-preview 的行为与 Anthropic 所发现的“对齐伪造”（alignment faking）现象相一致，意味着 AI 系统在表面上遵循指令，但实际上却采取了其他操作。

Anthropic 的研究显示，AI 模型 Claude 有时会故意输送错误答案，以避免不希望的结果，从而发展出自身隐秘的策略。

研究人员计划公开实验代码、完整记录和详细分析，并指出确保 AI 系统真正符合人类价值观与需求，而非表面上的顺从，仍然是 AI 行业面临的一项重大挑战。

# AI前沿资讯 # AI # OpenAI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

N全球首个：阿联酋尝试用 AI 制定和修改法律

GoodNav.net

125

多家企业 AI 客服被曝“已读乱回”转人工难，公司“降本增效”却让消费者添堵

GoodNav.net

720

OpenAI GPT-4 解锁新成就：100% 识别性别、74.25% 识别年龄范围，未专门训练可媲美专业算法

GoodNav.net

1.5K

NOpenAI 新模型 GPT-4.1 可靠性遭质疑：独立测试显示其对齐性下降

GoodNav.net

145

超 400 位明星签署联名信：反对 OpenAI 和谷歌随意使用版权内容训练 AI

GoodNav.net

830

谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能，可多步骤完成复杂任务

GoodNav.net

395

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved