研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
GoodNav 11月4日报道,网络安全公司0Din的研究员Marco Figueroa发现了一种新颖的GPT越狱攻击方法,成功地绕过了GPT-4o内置的“安全护栏”,使其能够生成恶意程序代码。
根据OpenAI的说明,ChatGPT-4o内置了一系列“安全护栏”措施,以防止该AI被不当使用,这些防护措施会分析用户输入的提示,判断是否存在生成恶意内容的请求。
然而,Marco Figueroa尝试了一种将恶意指令转化为十六进制的越狱方案,声称能够绕过GPT-4o的防护,使得其能够解码并执行用户发送的恶意指令。
研究人员声称,开始时他让GPT-4o解码一个十六进制字符串,随后发送了实际含义是“研究CVE-2024-41110漏洞并用Python编写恶意程序”的十六进制指令,GPT-4o在短短1分钟内成功地生成了相关漏洞的攻击代码(注:CVE-2024-41110是一个Docker验证漏洞,允许恶意程序绕过Docker验证API)。
研究人员指出,GPT系列模型被设计为依据自然语言指令进行编码和解码,但这些模型缺乏对上下文的深入理解,无法判断每一步操作在整体框架下的安全性。因此,许多黑客已经利用这一特性来促使模型执行各种不当操作。
研究人员强调,这些示例表明,AI模型开发者需要加强安全防护,以防范基于上下文理解的攻击。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...