• OpenAI回应《纽约时报》:要构建满足当前需求的顶尖神经网络而不依赖受版权保护的作品几乎是不可能的
  • 发布于 2个月前
  • 126 热度
    0 评论
2023 年 12 月 27 日,《纽约时报》在美国起诉了 OpenAI 和微软,起诉原因是 OpenAI 和微软涉嫌未经授权使用《纽约时报》数百万篇文章训练 AI。本周一 OpenAI 对《纽约时报》的起诉进行了回应。

回应链接:https://openai.com/blog/openai-and-journalism


同时在针对英国上议院通信和数字委员会对 AI 模型的风险和机遇进行的调查时表示,要构建满足当前需求的顶尖神经网络而不依赖人们受版权保护的作品几乎是不可能的。这家获得微软支持的实验室认为自己在合法地利用这些内容来训练模型,同时指出,若仅使用非版权的公共领域材料,将难以打造出色的 AI 软件。


这个观点提出之际,机器学习领域正迅速面临版权法带来的挑战。近期,IEEE 发布的一份报告显示,Midjourney 和 OpenAI 的 DALL-E 3—— 两个主流的将文字提示转化为图像的 AI 服务 —— 能够基于它们的训练数据再现电影和视频游戏中受版权保护的场景。在一项由 AI 领域的专家兼批评家 Gary Marcus 和数字插画家 Reid Southen 共同完成的研究中,记录了多起 OpenAI 和 DALL-E 3 生成与电影场景、著名演员照片和视频游戏内容高度相似的 “模仿输出” 案例。


Marcus 和 Southen 认为,Midjourney 和 OpenAI 很可能在他们的 AI 图像生成模型训练中使用了版权材料。尽管目前尚不清楚这种做法是否合法,也不确定 AI 供应商或其客户是否会面临法律责任,但这份报告的调查结果可能支持了那些控告 Midjourney 和 DALL-E 制造商 OpenAI 侵犯版权的人的立场。
“OpenAI 和 Midjourney 都具有生成可能侵犯版权和商标的内容的能力,” 他们写道。这些系统在进行此类操作时,并不会向用户发出任何提示。他们也不提供所生成图像的来源信息。因此,用户在创作图像时,可能并不清楚自己是否触犯了版权法。

这两家公司均未全面公开用于训练其 AI 模型的数据来源。


挑战 AI 公司的不仅仅是数字艺术家们。除了《纽约时报》因为 OpenAI 的 ChatGPT 文本模型能够几乎完全复制其付费文章,而对 OpenAI 提起了诉讼外。书籍作者和软件开发者也提出了类似的索赔。先前的研究显示,OpenAI 的 ChatGPT 可以被诱导复制其训练时使用的文本。同时,那些对微软和 GitHub 提起诉讼的人士指出,Copilot 编码助手模型能够较为精确地复制代码。


Southen 指出,Midjourney 通过向创作侵权内容的用户收费,并通过订阅服务获得收益。“即使 Midjourney 的用户没有出售这些图像,版权侵犯仍有可能发生,因为 Midjourney 已经从这些内容的创作中获利了,” 他这样认为,这与 IEEE 报告中的观点相呼应。

OpenAI 同样通过订阅费用获利。但是,OpenAI 和 Midjourney 均未对此事发表评论。

OpenAI 在周一对纽约时报的诉讼回应时,称这一诉讼没有合理依据。令人惊讶的是,该实验室表示,如果其神经网络产生了侵权内容,那么这只是一个 “漏洞”。


这家新兴公司在辩护中提出:它正在积极与新闻机构合作;在版权数据上进行的训练符合版权法下的公平使用原则;“内容再现” 是一个罕见的漏洞,他们正努力将其消除;纽约时报挑选的文本复制示例,并不代表常态行为。

法律将会裁定

加州圣克拉拉大学法律系的教授 Tyler Ochoa 在接受采访时表示,尽管 IEEE 的报告对于版权索赔案件可能有所帮助,但他认为不应该过度依赖这些发现。因为在他看来,该报告的作者对实际情况有所误解。他指出,报告中写道:“图像生成模型是否能被诱导产生基于版权材料的剽窃性输出?…… 我们发现答案显然是肯定的,即便没有直接要求产生剽窃性输出。” Ochoa 对这一结论表示怀疑。


他认为,报告作者输入的提示实际上已经直接要求产生剽窃性输出。每个提示都提到了具体电影的标题、指定了画面比例,在除了一个例外的情况下,都使用了 “电影” 和 “截图” 或 “屏幕截图” 的词汇。(唯一的例外是描述了他们想复制的图像。)
这位法学教授表示,在版权法中一个关键问题是确定谁应对 AI 模型产生的剽窃内容负责:是创造这些 AI 模型的开发者,还是指示 AI 模型复制某个场景的使用者。

Ochoa 解释说:“生成式 AI(Generative AI) 模型既能创造独特的作品,也能在接到指令时模仿那些受版权保护的场景。这种情况应该视为一种间接的侵权行为:给予指令的人是主要的侵权者,而模型的开发者只有在他们知道了这种侵权行为并且没有采取合理措施阻止时,才会承担责任。”


他还指出,当 AI 模型的训练数据集中包含多个类似的图像时,模型复制特定图像的可能性更大。
Ochoa 补充道:“在这种情况下,训练数据包含整部电影的可能性非常小,更可能的情况是,数据包含了电影的静态宣传照。这些图片之所以在训练数据中重复出现,是因为媒体被鼓励将其作为宣传材料进行传播。”
“对于版权所有者来说,先是鼓励为了宣传而广泛传播这些静态图像,然后又对 AI 模仿这些图片表示不满,这种做法是极不公平的。”
Ochoa 还提到,可以采取措施限制 AI 模型的这类行为。“但关键问题是,当用户明显想让 AI 复制一个可识别的图像,且电影制作方显然希望这些静态图像被广泛传播时,是否应当采取这些措施呢?” 他说。
“更值得思考的问题是,如果提示没有特别提及某部特定电影或描述特定的角色或场景,这种情况发生的频率会有多高?我相信,一位无偏见的研究者很可能会发现,这种情况其实非常罕见。”
尽管如此,对于这些 AI 模型的有效运作而言,受版权保护的内容似乎是不可或缺的。

OpenAI 向英国上议院自辩
针对英国上议院通信和数字委员会对 AI 模型的风险和机遇进行的调查,OpenAI 提交了一份文件。
文件链接:https://committees.parliament.uk/writtenevidence/126981/pdf/
文件中警告称,如果不使用受版权保护的内容来训练,其模型将无法正常运作。
OpenAI 表示:“在当今时代,版权几乎覆盖了所有形式的人类表达,包括博客文章、照片、论坛帖子、软件代码片段以及政府文件。因此,不使用受版权保护的材料,我们就无法训练出先进的 AI 模型。”
“如果我们只用一个世纪前创作的公共领域书籍和图纸来训练数据,这或许是个有趣的实验,但却无法满足现在人们的需求。”
这家 AI 公司还表示,他们相信自己的做法符合版权法,并且在版权材料上进行训练是合法的。不过,他们也承认:“为了支持和赋能创作者,我们仍有许多工作要做。”
这种立场似乎是在外交上承认了关于版权作品可能合理使用的伦理问题,特别是在考虑到 IEEE 报告中的一项声明:“我们找到了证据,显示 Midjourney 一名高级软件工程师在 2022 年 2 月讨论了如何通过 '精细调校的 codex' 来逃避版权法。”

IEEE 报告的合著者 Marcus 对 OpenAI 力图在英国为其当前的商业行为获得监管批准的努力表示了怀疑。
他在社交媒体上写道:“直白点说,如果你们不允许我们侵权,我们就赚不到大钱,请不要将侵权定为犯罪!也请不要让我们支付版权许可费!虽然 Netflix 每年可能支付数十亿美元的许可费,但我们不应该这么做!这样我们就能赚更多的钱!”

OpenAI 承诺,对于企业版 ChatGPT 和 API 客户,如果他们面临版权索赔,公司将提供赔偿。但这不适用于客户或其最终用户 “明知或应当知道输出内容侵权或可能侵权”,或是客户绕过了安全措施等情况。因此,如果要求 DALL-E 3 重现明显受版权保护的著名电影场景,就不符合赔偿条件。
Midjourney 选择了一种截然不同的策略,即承诺要追究并对那些涉嫌侵权的客户提起诉讼,目的是为了追回因此类索赔而产生的法律费用。
Midjourney 的服务条款明确指出:“如果你明知故犯地侵犯了别人的知识产权,导致我们产生了费用,我们将会找到你,向你追回这些费用。我们还可能采取其他措施,例如争取让法庭判决你承担我们的法律费用。所以,请不要这么做。”
原文链接:https://www.theregister.com/2024/01/08/midjourney_openai_copyright/
用户评论