
美国的版权法是一件复杂的事情。我们这些不是律师的人可以理解,很难弄清楚它的真正含义,以及它保护什么和不保护什么。数据科学家不会花很多时间考虑版权问题,除非我们为开源项目选择许可证。即便如此,有时我们只是跳过了这一点,并没有真正处理它,即使我们知道我们应该这样做。但法律界开始密切关注版权如何与生成式人工智能相交,这可能会对我们的工作产生真正的影响。在我们谈论它如何影响生成式人工智能世界之前,让我们回顾一下版权的真相。
-
美国版权法与所谓的“原创作品”有关。这包括以下类别下的内容:文学;音乐剧;戏剧性的;哑剧和编舞作品;绘画、图形和雕塑作品;视听作品;录音;衍生作品;编译;建筑作品。
-
内容必须经过书面或记录才能受版权保护。“想法不受版权保护。只有有形的表达形式(例如,书籍、戏剧、绘画、电影或照片等)才受版权保护。一旦你以固定的形式表达你的想法——作为数字绘画、录制的歌曲,甚至在餐巾纸上涂鸦——如果它是原创作品,它就会自动受到版权保护。
-
受保护意味着只有版权所有者(作者或创作者、继承权利的后代或权利的购买者)才能做这些事情:制作和销售作品的副本,从原件创作衍生作品,以及公开表演或展示作品。
-
版权不是永远的,它会在经过一定时间后结束。通常,这是作者去世后 70 年或内容发布后 95 年。(在美国,1929年之前的任何内容通常都属于“公有领域”,这意味着它不再受版权保护。
为什么版权存在?最近的法律解释认为,重点不仅仅是让创作者致富,而是鼓励创作,以便我们有一个包含艺术和文化创造力的社会。基本上,我们与创作者交换金钱,这样他们就会被激励为我们创造伟大的东西。这意味着很多法院在审理版权案件时都会问,“这个复制品是否有利于一个创造性的、艺术性的、创新的社会?”并在做出判决时也考虑到这一点。
合理使用
此外,“合理使用”不是无视版权的免费通行证。有四个测试可以确定内容的使用是否属于“合理使用”:
-
第二次使用的目的和特点:你是在做一些创新和不同的东西,还是只是在复制原来的?您的新事物本身是否具有创新性?如果是这样,则更有可能是合理使用。此外,如果您的使用是为了赚钱,那么这不太可能是合理使用。
-
原件的性质:如果原件具有创造性,则很难通过合理使用来破坏版权。如果这只是事实,那么你更有可能应用合理使用(想想引用研究文章或百科全书)。
-
使用量:你是在复制整个东西吗?或者只是,比如说,一个段落或一小段?尽可能少地使用必要的使用对于合理使用很重要,尽管有时您可能需要在衍生作品中大量使用。
-
效果:你是在从原版中偷走客户吗?人们会购买或使用您的副本而不是购买原件吗?创作者会因为你的文案而赔钱或赔市场份额吗?如果是这样,则可能不是合理使用。(即使你不赚钱,这也是相关的。
您必须满足所有这些测试才能合理使用,而不仅仅是一两个。当然,所有这些都需要法律解释。(本文不是法律建议!但现在,有了这些事实,让我们想想生成式人工智能是做什么的,以及为什么上述概念会撞向生成式人工智能。
生成式 AI 回顾

我专栏的普通读者将对生成式 AI 的训练方式有非常清晰的了解,但让我们快速回顾一下。
-
收集大量数据,模型通过分析该数据中存在的模式进行学习。(正如我之前所写的:“一些报告表明,GPT-4 的训练数据大约有 1 万亿个单词。这些话中的每一个都是由一个人写的,出于他们自己的创造能力。就上下文而言,《权力的游戏》系列的第 1 册大约有 292,727 个单词。因此,GPT-4 的训练数据大约有 3,416,152 份。
-
当模型学习了数据中的模式时(对于LLM,它学习了所有关于语言语义、语法、词汇和习语的知识),那么它将被人类微调,以便在人们与之交互时它的行为符合预期。数据中的这些模式可能非常具体,以至于一些学者认为该模型可以“记住”训练数据。
-
然后,该模型将能够回答用户的提示,反映它所学习的模式(对于LLM,用非常有说服力的人类语言回答问题)。
这些模型的输入(训练数据)和输出都对版权法有重要影响,因此让我们仔细研究一下。
训练数据和模型输出
训练数据对于创建生成式 AI 模型至关重要。目标是教授一个模型来复制人类的创造力,因此该模型需要看到大量的人类创造力作品,以便了解它的外观/声音。但是,正如我们之前所了解的,人类创作的作品属于这些人(即使它们被记在餐巾纸上)。向每个创作者支付其作品的权利在经济上是不可行的,因为我们需要大量的数据来训练一个小型的生成式人工智能模型。那么,将其他人的工作输入到训练数据集中并创建生成式 AI 模型对我们来说是否合理?让我们回顾一下合理使用测试,看看我们在哪里着陆。
-
我们可以争辩说,使用数据来训练模型并不真正算作创建衍生作品。例如,这与用一本书或一段音乐教孩子有什么不同吗?反驳的论点是,首先,教一个孩子与使用数百万本书来生产产品以获取利润是不一样的,其次,生成式人工智能能够敏锐地再现它所训练的内容,以至于它基本上是一个几乎逐字复制作品的大型花哨工具。生成式人工智能的结果有时是否具有创新性,与输入完全不同?如果是这样,那可能是因为非常有创意的提示工程,但这是否意味着底层工具是合法的?
然而,从哲学上讲,机器学习正试图尽可能准确和精确地重现它从训练数据中学到的模式。它从原著中学到的模式和原著的“心”是一样的吗?
这在现有的不同种类的生成式人工智能中差异很大,但由于训练任何模型都需要大量的数据,似乎至少有一些数据符合创造力的法律标准。在许多情况下,使用人类内容作为训练数据的全部原因是尝试将创新(高度多样化)的输入引入模型。除非有人要浏览 GPT-4 的整个 1 万亿个单词并决定哪些是创造性的,哪些不是创造性的,否则我认为这个标准不符合合理使用。
这与#2 的问题类似。因为,几乎根据定义,生成式 AI 训练数据集会使用他们能拿到的一切,而且数量需要庞大而全面;实际上并没有“最低限度的必要”内容。
最后,效果问题是生成式人工智能的一大症结所在。我想我们都知道有人不时使用 ChatGPT 或类似工具,而不是在百科全书或报纸上搜索问题的答案。有强有力的证据表明,人们使用像Dall-E这样的服务来请求“以[艺术家姓名]的风格”的视觉作品,尽管这些服务显然做出了一些努力来阻止这种情况。如果问题是人们是否会使用生成式人工智能而不是向原始创造者付费,那么在某些领域似乎正在发生这种情况。我们可以看到,像 Microsoft、谷歌、Meta 和 OpenAI 这样的公司正在从生成式 AI 中获得数十亿美元的估值和收入,所以他们绝对不会轻易通过这个。
复制作为计算中的一个概念
我想停下来谈一个无关紧要但很重要的问题。版权法并不具备处理一般计算的能力,尤其是软件和数字工件。版权法主要是在早期世界制定的,复制黑胶唱片或重新出版一本书是一项专业且昂贵的任务。但是今天,当任何计算机上的任何内容基本上都可以通过单击鼠标在几秒钟内复制时,复制内容的整个想法与过去不同。另外,请记住,安装任何软件都算作制作副本。在我们的文化中,数字副本意味着与计算机之前的复制类型不同的东西。关于版权在数字时代应该如何运作,存在着很多问题,因为其中很多似乎不再具有重要意义。您是否曾经从 GitHub 或 StackOverflow 复制过一些代码?我当然有!您是否仔细审查了内容许可证,以确保它对于您的用例是可复制的?你应该,但你做到了吗?
《纽约时报》诉OpenAI

现在我们已经大致了解了这种困境的形态,创作者和法律如何处理这个问题?我认为最有趣的案例(有很多)是《纽约时报》提起的案例,因为它的一部分以我认为其他案例无法做到的方式表达了复制的意义。
正如我上面提到的,复制数字文件的行为是如此普遍和正常,以至于很难想象强制复制数字文件(至少,无意将该确切文件分发给全球公众,违反其他合理使用测试)是侵犯版权的。我认为这就是我们需要关注生成式人工智能问题的地方——不仅仅是重复,而是对文化和市场的影响。
生成式人工智能真的在复制内容吗?例如,训练数据输入,训练数据返回?《纽约时报》在其文件中显示,你可以从 ChatGPT 中获取《纽约时报》文章的逐字文本,并有非常具体的提示。因为《纽约时报》有付费墙,如果这是真的,它似乎明显违反了合理使用的效果测试。到目前为止,OpenAI 的回应一直是“好吧,你向 ChatGPT 使用了许多复杂的提示来获得那些逐字结果”,这让我想知道,他们的论点是,如果生成式 AI 有时会生成它所训练的内容的逐字副本,那不是非法的吗?(环球音乐集团(Universal Music Group)也提起了与音乐有关的类似诉讼,认为生成式人工智能模型克劳德(Claude)可以几乎逐字复制受版权保护的歌曲的歌词。
我们要求法院确切地决定在多大程度上和什么样的使用受版权保护的材料是可以接受的,在这种情况下这将是具有挑战性的——我倾向于认为使用数据进行训练本身不应该有问题,但重要的问题是如何使用模型以及它有什么影响。
我们倾向于将合理使用视为一个步骤,例如引用文章中的段落并引用。我们的制度有一套法律思想,为这种情况做好了充分的准备。但在生成式人工智能中,它更像是两个步骤。要说侵犯了版权,在我看来,如果内容被用于培训,它也必须以一种篡夺原始材料市场的方式从最终模型中检索。我不认为您可以将使用的输入内容的数量与可以逐字提取为输出的数量分开。不过,ChatGPT 真的是这样吗?我们将看看法院是怎么想的。
DMCA系列
这些问题还有另一个有趣的角度,即DMCA(数字千年版权法案)是否与此相关。您可能熟悉这项法律,因为它几十年来一直被用来迫使社交媒体平台删除未经版权所有者授权发布的音乐和电影文件。该法律基于这样一种想法,即您可以与侵犯版权的人“打地鼠”,一次删除内容。然而,当涉及到训练数据集时,这显然是行不通的——你需要重新训练整个模型,在大多数生成式人工智能的情况下,成本过高,从训练数据中删除有问题的一个或多个文件。从理论上讲,您仍然可以使用 DMCA 来强制从站点中删除有问题的模型的输出,但证明哪个模型生成了该项目将是一个挑战。但这并没有触及输入+输出的根本问题,因为正如我所描述的那样,两者都是侵权的关键。
权力问题
如果这些行为实际上侵犯了版权,法院仍然必须决定如何处理。很多人认为,生成式人工智能在某种程度上“太大而不能失败”——他们不能废除让我们走到这一步的做法,因为每个人都喜欢 ChatGPT,对吧?生成式人工智能(我们被告知)将彻底改变 [在此处插入扇区]!
虽然版权是否受到侵犯的问题仍有待决定,但我确实觉得如果侵犯版权,应该有后果。在什么时候,我们停止原谅那些规避法律或完全违反法律的有权势的人和机构,假设请求宽恕比许可更容易?这并不完全明显。如果没有一些人以这种方式行事,我们今天就不会有太多创新,但这并不一定意味着它是值得的。放任这些情况过去是否会使法治贬值?
像现在许多《99%隐形》的听众一样,我正在阅读罗伯特·卡罗(Robert Caro)的《权力经纪人》(The Power Broker)。听说罗伯特·摩西(Robert Moses)在20世纪之交如何处理纽约的法律问题,真是令人着迷,因为他处理分区法的风格似乎让人想起2010年初旧金山优步(Uber)处理制服司机法律的方式,以及构建生成式人工智能的大公司现在处理版权的方式。他们没有遵守法律,而是采取了法律限制不适用于他们的态度,因为他们正在建造的东西是如此重要和有价值。
然而,我只是不相信这是真的。当然,每个案例在某些方面都是不同的,但一个有权势的人可以决定他认为是一个好主意的概念不可避免地比其他人的想法更重要,这让我感到不舒服。生成式人工智能可能有用,但认为它比拥有一个充满活力和创造力的社会更重要,这似乎是不诚实的。法院仍然需要决定生成式人工智能是否对艺术家和创作者产生了寒蝉效应,但这些创作者提起的法庭诉讼认为这是。
未来
美国版权局并没有忽视这些具有挑战性的问题,尽管他们可能有点晚了,但他们最近发表了一篇博客文章,谈论了他们与生成式人工智能相关的内容计划。然而,它的细节非常简短,只告诉我们未来会有报告。该部门的工作重点包括:
-
“数字复制品”:基本上是人的深度伪造和数字孪生(想想特技替身和演员在工作中必须被扫描,这样他们才能被数字模仿)
-
-
这些都是重要的话题,我希望结果会是深思熟虑的。(一旦这些报告出来,我会写关于它们的文章。我希望从事这项工作的政策制定者能够充分了解情况并在技术上熟练,因为官僚很容易通过不明智的新规则使整个情况变得更糟。
未来另一种可能性是将开发用于培训的伦理数据集。这是 HuggingFace 的一些人已经以名为 The Stack 的代码数据集的形式完成的事情。我们可以为其他形式的内容做这样的事情吗?
结论
然而,无论政府或行业提出什么,法院都在着手决定这个问题。如果生成式人工智能方面在法庭上的一个案件败诉,会发生什么?
这至少可能意味着生成式人工智能产生的一些资金将返还给创作者。我不太相信生成式人工智能的整个想法会消失,尽管我们确实看到很多公司在Napster时代结束了。法院可以使生产生成式人工智能的公司破产,和/或禁止生产生成式人工智能模型——这并非不可能!然而,我不认为这是最有可能的结果——相反,我认为我们会看到一些处罚和一些法律碎片化(这个模型是可以的,那个模型不是,等等),这可能会也可能不会使情况在法律上更加清晰。
如果法院在何时以及如何将生成式人工智能模型视为侵权,而不是将输入和输出问题分开,而是将它们作为一个整体进行审查,我真的很希望,因为我认为这是理解情况的关键。如果他们这样做了,我们也许能够提出对我们正在处理的新技术有意义的法律框架。否则,我担心我们最终会进一步陷入法律的泥潭,可悲的是,这些法律没有准备好指导我们的数字创新。我们需要在数字世界的背景下更有意义的版权法。但我们也需要以各种形式智能地保护人类艺术、科学和创造力,我认为人工智能生成的内容不值得交易。关
以上发布内容和图片的目的在于传播更多行业信息,版权归原作者所有,不为商业用途,如有侵犯,敬请与我们联系。