Loading...

OpenAI 遭实锤:研究称其 AI 模型“记住”了受版权保护的内容

AI前沿资讯19小时前发布 GOODNAV.NET
305 0 0

GoodNav 4月6日消息,最近的一项研究似乎为指控OpenAI在训练其人工智能模型时部分使用受版权保护的内容提供了支持。

OpenAI 遭实锤:研究称其 AI 模型“记住”了受版权保护的内容

需要注意的是,OpenAI正面临来自作家、程序员和其他版权持有者的诉讼,原告指控该公司未经授权使用他们的作品,包括书籍和代码库来开发其模型。尽管OpenAI声称其行为受到合理使用的保护,原告却认为美国版权法并没有针对训练数据的豁免条款。

这项研究由来自华盛顿大学、哥本哈根大学和斯坦福大学的研究团队联合完成,提出了一种新方法,用于识别通过应用程序接口(API)提供服务的模型所“记住”的训练数据。

AI模型本质上是预测引擎,通过大量的数据训练后能够学习各种模式,以生成文章、图像等内容。尽管大多数生成的内容并不是训练数据的逐字复刻,但由于模型的学习方式,部分信息不可避免地会被记忆。此前的研究已经发现,图像模型会重复生成训练数据中电影的截图,而语言模型则被观察到会剽窃新闻文章。

该研究的核心方法依赖于研究人员定义的“高意外性”词汇,这些词汇在大量作品中显得比较稀有。例如,在句子“Jack and I sat perfectly still with the radar humming”中,“radar”(雷达)一词被认为是高意外性的,因为统计上它在“humming”(嗡嗡作响)之前出现的可能性低于“engine”(引擎)或“radio”(收音机)等词。

共同作者对包括GPT-4和GPT-3.5在内的多种OpenAI模型进行测试,通过从虚构小说片段和《纽约时报》文章中去除高意外性词汇,让模型尝试“猜测”被屏蔽的词汇,以寻找记忆的迹象。研究人员认为,如果模型能够成功猜出这些词汇,可能表明该模型在训练过程中记住了这些内容。

根据测试结果,GPT-4显示出对流行小说书籍部分内容的记忆,这些书籍来自一个包含受版权保护电子书的数据库BookMIA。结果还表明,该模型记住了《纽约时报》部分文章的内容,尽管比例较低。

华盛顿大学的博士生兼共同作者阿比拉沙·拉维奇汉德(Abhilasha Ravichander)在接受TechCrunch采访时表示,这些发现揭示了模型可能训练于“有争议的数据”。

OpenAI长期以来一直主张放宽对使用受版权保护数据开发模型的限制。尽管该公司已经与一些内容提供者达成许可协议,并提供了允许版权所有者标记不希望用于训练的内容的退出机制,OpenAI仍在游说多个政府将有关人工智能训练方式的“合理使用”规则纳入法律。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...