研究人员绕过 GPT-4o 模型安全护栏，利用“十六进制字符串”成功令其编写漏洞攻击程序

1.6K 0 0

GoodNav 11月4日报道，网络安全公司0Din的研究员Marco Figueroa发现了一种新颖的GPT越狱攻击方法，成功地绕过了GPT-4o内置的“安全护栏”，使其能够生成恶意程序代码。

根据OpenAI的说明，ChatGPT-4o内置了一系列“安全护栏”措施，以防止该AI被不当使用，这些防护措施会分析用户输入的提示，判断是否存在生成恶意内容的请求。

▲ 图片来源：Marco Figueroa 博客

然而，Marco Figueroa尝试了一种将恶意指令转化为十六进制的越狱方案，声称能够绕过GPT-4o的防护，使得其能够解码并执行用户发送的恶意指令。

研究人员绕过 GPT-4o 模型安全护栏，利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员声称，开始时他让GPT-4o解码一个十六进制字符串，随后发送了实际含义是“研究CVE-2024-41110漏洞并用Python编写恶意程序”的十六进制指令，GPT-4o在短短1分钟内成功地生成了相关漏洞的攻击代码（注：CVE-2024-41110是一个Docker验证漏洞，允许恶意程序绕过Docker验证API）。

研究人员绕过 GPT-4o 模型安全护栏，利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员指出，GPT系列模型被设计为依据自然语言指令进行编码和解码，但这些模型缺乏对上下文的深入理解，无法判断每一步操作在整体框架下的安全性。因此，许多黑客已经利用这一特性来促使模型执行各种不当操作。

研究人员强调，这些示例表明，AI模型开发者需要加强安全防护，以防范基于上下文理解的攻击。