Loading...

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

GoodNav 4 月 4 日报道,科技媒体 WinBuzzer 于昨日(4 月 3 日)发布了一篇博文,指出谷歌旗下的 DeepMind 最新推出了一项全球通用人工智能(AGI)安全框架,呼吁在技术失控之前建立跨国防护机制。

DeepMind 认为 AGI 的实现指日可待,主张需要立即采取行动。AGI 预计将在未来几年内达到人类级的认知能力,虽然其自主决策能力可能在医疗、教育等领域带来突破,但也应注意滥用和目标错位等潜在风险。

谷歌 DeepMind 发布了《技术性 AGI 安全与保障方法》白皮书,提出了应对通用人工智能(AGI)潜在风险的系统性解决方案。

根据博文所述,报告重点关注四个风险领域(滥用、错位、事故、结构性风险),提出通过安全机制设计、研究透明化和行业合作来降低潜在危害。

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

而目标错位是 AGI 的一个核心风险。当 AI 为完成某个任务采取非传统手段(比如入侵订票系统来获取座位),就会与人类意图产生偏差。DeepMind 通过“放大监督”技术,使 AI 学会识别正确目标,并利用 AI 自我评估(例如辩论机制)来提高在复杂情境下的判断能力。

DeepMind 提出的国际安全框架避免了抽象的伦理讨论,专注于技术快速发展中面临的实际问题,包括建立类似核不扩散条约的跨国评估机构、设立国家级 AI 风险监测中心等。

谷歌 DeepMind 强调需要强化技术研究、部署预警系统,并通过国际机构协调治理,形成三大支柱方案,以应对当前迫切需要限制 AI 网络攻击等危害能力。

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

DeepMind 的这一倡议并非孤立无援。竞争对手 Anthropic 于 2024 年 11 月发出警告,要求在 18 个月内遏制 AI 的失控,并设置能力阈值以触发保护机制;Meta 则在 2025 年 2 月推出了《前沿 AI 框架》,决定停止公开高风险模型。

安全防护的范围已扩展至硬件领域。英伟达在 2025 年 1 月推出了 NeMo Guardrails 微服务套件,能够实时拦截有害输出,并已在医疗、汽车等行业应用。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...