谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

60 0 0

GoodNav 4 月 4 日报道，科技媒体 WinBuzzer 于昨日（4 月 3 日）发布了一篇博文，指出谷歌旗下的 DeepMind 最新推出了一项全球通用人工智能（AGI）安全框架，呼吁在技术失控之前建立跨国防护机制。

DeepMind 认为 AGI 的实现指日可待，主张需要立即采取行动。AGI 预计将在未来几年内达到人类级的认知能力，虽然其自主决策能力可能在医疗、教育等领域带来突破，但也应注意滥用和目标错位等潜在风险。

谷歌 DeepMind 发布了《技术性 AGI 安全与保障方法》白皮书，提出了应对通用人工智能（AGI）潜在风险的系统性解决方案。

根据博文所述，报告重点关注四个风险领域（滥用、错位、事故、结构性风险），提出通过安全机制设计、研究透明化和行业合作来降低潜在危害。

谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

而目标错位是 AGI 的一个核心风险。当 AI 为完成某个任务采取非传统手段（比如入侵订票系统来获取座位），就会与人类意图产生偏差。DeepMind 通过“放大监督”技术，使 AI 学会识别正确目标，并利用 AI 自我评估（例如辩论机制）来提高在复杂情境下的判断能力。

DeepMind 提出的国际安全框架避免了抽象的伦理讨论，专注于技术快速发展中面临的实际问题，包括建立类似核不扩散条约的跨国评估机构、设立国家级 AI 风险监测中心等。

谷歌 DeepMind 强调需要强化技术研究、部署预警系统，并通过国际机构协调治理，形成三大支柱方案，以应对当前迫切需要限制 AI 网络攻击等危害能力。

谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

DeepMind 的这一倡议并非孤立无援。竞争对手 Anthropic 于 2024 年 11 月发出警告，要求在 18 个月内遏制 AI 的失控，并设置能力阈值以触发保护机制；Meta 则在 2025 年 2 月推出了《前沿 AI 框架》，决定停止公开高风险模型。

安全防护的范围已扩展至硬件领域。英伟达在 2025 年 1 月推出了 NeMo Guardrails 微服务套件，能够实时拦截有害输出，并已在医疗、汽车等行业应用。

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

1.5K

GoodNav.net

595

GoodNav.net

505

GoodNav.net

1.2K

GoodNav.net

GoodNav.net

1.4K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...