OpenAI 遭实锤：研究称其 AI 模型“记住”了受版权保护的内容

705 0 0

GoodNav 4月6日消息，最近的一项研究似乎为指控OpenAI在训练其人工智能模型时部分使用受版权保护的内容提供了支持。

需要注意的是，OpenAI正面临来自作家、程序员和其他版权持有者的诉讼，原告指控该公司未经授权使用他们的作品，包括书籍和代码库来开发其模型。尽管OpenAI声称其行为受到合理使用的保护，原告却认为美国版权法并没有针对训练数据的豁免条款。

这项研究由来自华盛顿大学、哥本哈根大学和斯坦福大学的研究团队联合完成，提出了一种新方法，用于识别通过应用程序接口（API）提供服务的模型所“记住”的训练数据。

AI模型本质上是预测引擎，通过大量的数据训练后能够学习各种模式，以生成文章、图像等内容。尽管大多数生成的内容并不是训练数据的逐字复刻，但由于模型的学习方式，部分信息不可避免地会被记忆。此前的研究已经发现，图像模型会重复生成训练数据中电影的截图，而语言模型则被观察到会剽窃新闻文章。

该研究的核心方法依赖于研究人员定义的“高意外性”词汇，这些词汇在大量作品中显得比较稀有。例如，在句子“Jack and I sat perfectly still with the radar humming”中，“radar”（雷达）一词被认为是高意外性的，因为统计上它在“humming”（嗡嗡作响）之前出现的可能性低于“engine”（引擎）或“radio”（收音机）等词。

共同作者对包括GPT-4和GPT-3.5在内的多种OpenAI模型进行测试，通过从虚构小说片段和《纽约时报》文章中去除高意外性词汇，让模型尝试“猜测”被屏蔽的词汇，以寻找记忆的迹象。研究人员认为，如果模型能够成功猜出这些词汇，可能表明该模型在训练过程中记住了这些内容。

根据测试结果，GPT-4显示出对流行小说书籍部分内容的记忆，这些书籍来自一个包含受版权保护电子书的数据库BookMIA。结果还表明，该模型记住了《纽约时报》部分文章的内容，尽管比例较低。

华盛顿大学的博士生兼共同作者阿比拉沙·拉维奇汉德（Abhilasha Ravichander）在接受TechCrunch采访时表示，这些发现揭示了模型可能训练于“有争议的数据”。

# AI前沿资讯