AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

60 0 0

GoodNav 4 月 22 日报道，Anthropic 公司在周一发布了一项名为“Values in the Wild”的研究，对此 AI 助手 Claude 在实际用户互动中的价值观表达进行了深入分析。

研究团队从 Claude.ai 的 Free 和 Pro 用户中，收集了在 2025 年 2 月 18 日至 25 日期间的 70 万条匿名对话数据，主要涉及 Claude 3.5 Sonnet 模型。团队对对话进行筛选，重点分析需要主观解读的部分，最终保留了 308210 条交互以供深入分析。

该研究采用了隐私保护框架 CLIO，确保在数据处理过程中去除个人信息，并设定了严格的聚合标准（例如，每组数据必须包含超过 1000 名用户），以确保用户隐私的安全。

据博文介绍，在 CLIO 框架下，Anthropic 运用其自有语言模型提炼出 Claude 表达的价值观，共识别出 3307 种 AI 价值观和 2483 种人类价值观。经人工验证，AI 提取的价值观与人类判断高度一致，达到了 98.8% 的一致率。

这些价值观被划分为五大类：Practical（实用性）、Epistemic（知识性）、Social（社会性）、Protective（保护性）和 Personal（个人性）。

其中，实用性和知识性价值观占据主导地位，超过一半的案例反映了效率、质量或逻辑一致性等特征。

研究还指出，Claude 的价值观与 Anthropic 的 HHH 设计目标密切相关，例如，“用户赋能”对应 Helpful，“知识谦逊”对应 Honest，而“患者福祉”对应 Harmless。

报告中还发现了“支配性”和“无道德性”等少量负面价值观，这可能与用户尝试“越狱”模型有关。

研究显示，Claude 的价值观表达并非固定不变，而是高度受限于具体情境。例如，在提供关系建议时，Claude 强调“健康界限”；而在讨论历史事件时，则重视“历史准确性”。

此外，Claude 在回应用户明确表达的价值观时，通常采取支持态度，在 43% 的相关交互中加强了用户的框架，甚至“镜像”用户的价值观（如“真实性”）。

相比之下，Claude 较少“重塑”用户的价值观（占比 6.6%），这种情况主要出现在个人福祉或人际关系的讨论中；而直接抵制用户价值观的情况更少（5.4%），通常发生在用户请求不道德内容或违反使用政策的情况下。

AI 助手 Claude 的“内心世界”：Anthropic 新研究解密其价值观

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

920

GoodNav.net

565

GoodNav.net

1.2K

GoodNav.net

1.3K

GoodNav.net

555

GoodNav.net

1.6K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...