《连线》杂志报道,包括苹果、英伟达、Anthropic、Salesforce 等科技公司被发现在未经许可的情况下使用数千个 YouTube 视频来训练他们的人工智能模型。
报道披露了这些科技公司都在将各种 YouTube 视频的字幕整合入他们的训练数据集之中,受影响的创作者包括博主 MKBHD、MrBeast、Jacksepticeye,脱口秀演员斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔,麻省理工学院、可汗学院、哈佛大学等教育频道,华尔街日报、NPR 等媒体。
据悉,一个叫 Eleuther AI 的非营利组织下载了这些内容的字幕文件,为他们发布的「The Pile」大数据集的一部分,虽然他们的行为可能是为小型开发者和学者提供训练材料,但这些数据集也被大公司们所利用。
值得一提的是,苹果等公司并没有自己下载扒取这些数据,而是由 Eleuther AI 完成的,所以技术上说,真正违反了 YouTube 条款的是 Eleuther AI。