5月8日,最新解封的法庭文件显示,OpenAI删除了两个名为“图书1”(books1)和“图书2”(books2)的庞大数据集,这些数据集曾用于训练其GPT-3人工智能(AI)模型。
这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示,这些数据集很可能包含“10万多本已出版书籍”,是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。
几个月来,美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示,OpenAI最初以保密为由拒绝提供这些数据集的下落,但最终披露已删除所有数据副本。
高质量的训练数据是强大AI模型的重要组成部分。目前,这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型,其中包括许多书籍。许多创造这些数据的公司认为,他们为新的AI产品提供了训练数据,需要获得报酬。但是,科技公司不想被迫付费。这一争执已经引发了多起官司。
扫一扫
在手机上阅读