据外媒报道,包括苹果、英伟达、Anthropic、Salesforce等科技公司被发现在未经许可的情况下使用数千个YouTube视频来训练他们的人工智能模型。报道披露了这些科技公司都在将各种YouTube视频的字幕整合入他们的训练数据集之中。
报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。
据悉,一个叫Eleuther AI的非营利组织下载了这些内容的字幕文件,为他们发布的「The Pile」大数据集的一部分,虽然他们的行为可能是为小型开发者和学者提供训练材料,但这些数据集也被大公司们所利用。值得一提的是,苹果等公司并没有自己下载扒取这些数据,而是由Eleuther AI完成的,所以技术上说,真正违反了YouTube条款的是Eleuther AI。
Copyright© 2013-2019