大数跨境
0
0

判决译文| Kadrey v. Meta Platforms, Inc.案判决译文

判决译文| Kadrey v. Meta Platforms, Inc.案判决译文 大迈说电商
2025-10-19
84

编者按

      当前,生成式人工智能的迅猛发展正深刻重构着内容创作与知识生产的生态格局。在这一进程中,大语言模型训练所触及的著作权保护边界问题,亦成为全球范围内立法领域、司法领域与产业实践领域所共同关注的争议焦点。争议背后,实为数字时代背景下的“技术创新激励”与“知识产权保护”两种倾向经典角力的再现与深化。

      为超越表象的争论,而进一步具象呈现司法系统在应对这一新型纠纷时的逻辑路径,我们系统翻译了四份具有一定学理代表性的美国法院判决。本次所选三则案例四份判决不仅对当前诉讼的核心争议维度进行一定程度的勾勒,也能对当前美国司法实践中逐步成形的审查框架与判断趋向进行揭示。我们更期待通过这些案例洞见在“合理使用”原则的适用逻辑上所展现出值得关注的裁判思路。

      另需特别说明的是,本次所编译的有些判决取自特定诉讼阶段,不定然构成终局性法律文书,其后续可能经历上诉、重审乃至和解,相关争议的判决结论也或非终局结论。然本次译介的初衷并非寻求确定结论,而是希望借助判决中详实的法律论证,为理解这一全球性议题提供更为扎实的司法实践参照。

      法律翻译虽力求精准却常难尽善,尤其在跨法域语境下,专业概念对接与术语转换更显复杂。译文若仍有生硬乃至舛误之处,恳请学界与实务界师友不吝斧正。并期待以此为基础,推动更具深度与规范性的学术对话。

——许智琛


      该案判决原文见Westlaw, 2025 WL 1752484;又见https://www.courtlistener.com/docket/67569326/kadrey-v-meta-platforms-inc/

——译校者注;赵子瑜译 许智琛校


判决译文

美国加利福尼亚州北区联邦地区法院


关于驳回原告部分简易判决动议

并准许Meta公司部分简易判决交叉动议的判决

本文件号为482、501

案号:No. 23-cv-03417-VC


原告:RICHARD KADREY等

被告:META 平台公司


      当前,各家公司正竞相开发生成式人工智能模型——这类软件产品能够基于此前“训练”所用的材料生成文本、图像、视频或音频。由于此种生成式人工智能模型的性能取决于其训练过程中所吸收数据的数量与质量,在未经版权所有人许可和支付报酬的情况下,企业往往难以抗拒将版权保护的材料输入模型的诱惑。本案的核心争议就在于此类行为是否应界定为违法行为。

      尽管个案的细节可能是复杂多样的,但在多数情况下,最终的法律意旨基本上是肯定的。即版权法的核心立法目的在于维护人类创作艺术与科学作品的动力。因此,未经许可复制受版权保护作品的行为通常属于违法行为。而“合理使用”原则虽可为某些版权侵权行为指控提供抗辩依据,但对于那些会严重削弱版权持有人从其作品中获利的能力(进而严重削弱未来创作动力)的复制行为,“合理使用”的豁免并不适用。生成式人工智能有可能向市场大量输出不计其数的图像、歌曲、文章、书籍等内容,人们仅需耗费原本所需时间与创造力的极小部分即可通过提示生成式人工智能模型获得上述输出内容。因此,企业如若使用受版权保护的作品训练生成式人工智能模型,实则是在创造一种往往会严重冲击原作品市场的工具,进而严重削弱人类以传统方式进行创作的动力。

      以传记类作品为例。若某企业使用受版权保护的传记作品数据训练模型,导致该模型能够生成大量传记作品,原有的原创传记市场可能会遭受重创。罗伯特·卡罗所著的《参议院大师》这类畅销书或许不会受此影响,因为该书常年位居众多读者的传记作品必读书单榜首。但可以肯定的是那些关于林登·约翰逊等鲜为人知的传记故事作品市场将会受到冲击,最终这种连锁反应会削弱未来传记作品作者的创作动力。

      再以杂志文章为例。如果某企业使用受版权保护的杂志文章训练模型,使其能够生成类似文章,那么显而易见,原创杂志文章的市场将会大幅萎缩。在人工智能生成的文章可免费获取的情况下,此情更甚。更进一步说,此种情况又将如何影响人们投入精力去创作高质量期刊文章的积极性?

      而对于其他类型的作品,生成式人工智能对其的影响情况就相对复杂了。比如生成式人工智能对回忆录或自传市场的影响情况就不那么明朗,因为从动机上讲,读者阅读这类作品的核心原因更多是基于对作者本身感兴趣。就小说而言,影响可能因书籍类型而异。《麦田里的守望者》这样的经典文学作品的市场或许不会萎缩,但普通名气作者创作的言情小说或谍战小说市场,则可能因人工智能生成的同类作品泛滥而大幅缩水。此类作品的泛滥很可能从根本上削弱人类创作言情或谍战小说的动力。

      一些版权法研究者认为上述这些影响都无关紧要,因为企业使用受版权保护的作品训练生成式人工智能模型的使用行为本身就具有高度的创造性。用版权法的术语来说,企业对作品的使用具有“转换性”。从事实层面上看,这一点无可争议;从法律层面上看,以转换性目的进行的复制行为确实可能不容易构成版权侵权责任,也更有可能获得合理使用原则的保护。但正如最高法院所强调的,合理使用的判断高度依赖具体事实,几乎不存在明确的一刀切规则。显然,不存在“只要对受保护作品的使用具有转换性就自动豁免侵权责任”的规则。在本案中,无论复制行为具有多大的转换性,其本质都是在创造一种可能严重损害原作品市场的产品,进而严重削弱人类的创作动力。根据合理使用原则,考量版权作品市场损害问题比深究复制行为的目的更为重要。

      顺带提及,在近期针对该问题的一项判决中,Alsup法官着重强调了生成式人工智能的转换性,却对其训练所用作品的市场可能遭受的损害置之不理。他认为,此类损害与“用作品训练学生写作(可能导致大量竞争作品涌现)”所造成的损害并无二致(Order on Fair Use at 28, Bartz v. Anthropic PBC, No. 24-cv-5417 (N.D. Cal. June 23, 2025), Dkt. No. 231)。Alsup法官称这“并非《版权法》所关注的竞争性或创造性替代”(同前引)。但从市场影响来看,用书籍教学生写作与用书籍打造一款工具(个人仅需耗费极少时间与创造力即可借助该工具生成大量竞争作品)之间毫无可比性。这种不恰当的类比不能成为否定合理使用分析中最重要因素的理由。

      另一种为企业辩护的观点更具修辞性而非法理性:(法院)如果对这些企业作出不利的判决,就会阻碍这项突破性技术的发展。诚然,该技术确实具有突破性,但声称作出对企业不利的版权判决会彻底扼杀这项技术则实属荒谬。这些产品预计将为开发企业带来数十亿美元甚至上万亿美元的收入,如果像企业所说的使用受版权保护的作品来训练模型确有必要,它们自然会找到向版权持有人支付报酬的方式。

      综上,在多数情况下,为训练生成式人工智能模型而未经许可复制受版权保护的作品的行为具有违法性。这意味着,企业为避免版权侵权责任就通常需要向版权持有人支付费来获得使用其作品的权利。

      但这就引出了本案的特殊之处。上述讨论在很大程度上基于本院对生成式人工智能模型及其能力的一般性理解。然而,法院不能依据一般性理解判决案件,而必须基于当事人提交的证据作出判决。

      本案中,13名作者(多为知名小说作家)起诉Meta公司,指控该公司从网络线上的“影子图书馆”下载其书籍,并用于训练Meta的生成式人工智能模型(具体而言是名为Llama的大型语言模型)。双方当事人已就部分争议各自提出 适用简易判决程序的申请。原告主张Meta的行为绝无可能构成合理使用,而Meta则抗辩称其行为应依法被认定为合理使用。就合理使用的争议,原告提出了两项核心理论用以解释Meta复制行为对其作品市场产生的影响:一是Llama模型能够再现其书籍中的小段文本;二是Meta未经许可使用其作品进行训练,损害了其将作品授权用于大型语言模型训练的获利能力。如下文所述,这两项主张均明显不能成立。Llama无法生成足以产生实质影响的原告书籍文本内容,且原告无权垄断作品作为人工智能训练数据的授权市场。至于一项本可能成立的主张——Meta复制其作品以打造一款可能向市场大量输出同类作品、导致市场稀释的问题——原告仅一笔带过,且未提交任何证据证明Meta模型当前或预期的输出内容会如何稀释其作品市场。

      基于现有的证据及案卷记录,本院不得不就原告提出的“Meta使用其书籍训练模型的行为违反版权法”主张准予Meta的简易判决申请。但从整体来看,本判决的影响范围有限:从涉诉主体上看,本案并非集体诉讼,故判决仅涉及这13名作者的权利而不涉及Meta用于训练模型的无数作品的其他版权持有人。从判决的意义上看,本判决并不意味着Meta使用受版权保护材料训练语言模型的行为具有合法性,仅表明这些原告的诉求主张存在显著瑕疵,且未能提供有力证据以支持其诉求的正当性。

一、版权法与合理使用

      版权法的立法目的是提高“文学、音乐及其他艺术形式对广大公众的可获得性”(Twentieth Century Music Corp. v. Aiken, 422 U.S. 151, 156, 95 S.Ct. 2040, 45 L.Ed.2d 84 (1975))。为此,版权法通过赋予原创作品作者一系列专有权利来激励创作,例如禁止他人复制或发行作品的权利(17 U.S.C. § 106)。但与此同时,版权法“在激励创作的收益与限制复制的成本之间进行权衡”(Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S. 508, 526 (2023))。例如版权仅保护表达形式而非潜在思想,且版权保护期限有限(17 U.S.C. §§ 102, 302-305)。

      《版权法》在保护所有权与为创新留有余地之间实现平衡的核心机制之一,是合理使用这一积极抗辩事由。根据该原则,“为批评、评论、新闻报道、教学…… 学术研究等目的而合理使用受版权保护的作品,不构成版权侵权”(17 U.S.C. § 107)。合理使用“使法院得以在严格适用版权法会扼杀其旨在促进的创造力时,避免机械适用该法”(Google LLC v. Oracle America, Inc., 593 U.S. 1, 18 (2021);quoting Stewart v. Abend, 495 U.S. 207, 236 (1990))。

      《版权法》规定判断某一使用行为是否构成合理使用,需考量以下四项因素:

1.使用的目的与性质,包括该使用是否具有商业性质或属非营利教育目的;

2.受版权保护作品的性质;

3.所使用部分占受版权保护作品整体的数量与实质性;

4.该使用对受版权保护作品潜在市场或价值的影响。

(17 U.S.C. § 107)

      虽然法律列举了上述四项判定因素,但合理使用是一个“灵活的概念”(Warhol, 598 U.S. at 527 (quotation marks omitted) (quoting Oracle, 593 U.S. at 20))。该列表并非巨细无遗,某一因素“在某些情形下可能比在其他情形下更为重要”(Oracle, 593 U.S. at 19)。对这些因素的适用“需要法院根据相关情况(包括‘技术的重大变革’)进行权衡”(Sony Corp. Of America v. Universal City Studios, Inc., 464 U.S. 417, 430 (1984))。各项因素之间也可能存在重叠,某一因素相关的事实可能同时与其他因素相关(A.V. ex rel. Vanderhye v. iParadigms, LLC, 562 F.3d 630, 642 (4th Cir. 2009))。总体而言,这些因素不应被机械适用,而应服务于“整体性判断”:二次作品是否可能在市场上替代原作,进而削弱创作动力(Romanova v. Amilus Inc., 138 F.4th 104, 117-18 (2d Cir. 2025) (Leval, J.);Warhol, 598 U.S. at 528, 143 S.Ct. 1258),将二次作品的市场替代称为“版权的头号公敌”。

      由于合理使用的第四项考量因素“聚焦于实际或潜在的市场替代”(Warhol, 598 U.S. at 536 n.12),这一因素“无疑是合理使用判断中最重要的单一因素”(Harper & Row Publishers, Inc. v. Nation Enterprises, 471 U.S. 539, 566 (1985))。若法律允许他人以削弱作品市场的方式复制创作成果,将会挫败创作者未来的创作积极性。因此,几乎在所有被告未经许可复制他人原创作品的案件中的核心问题都在于允许此类行为是否会对原作市场造成实质性损害(Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569, 590 (1994))。

      合理使用作为一项积极抗辩事由,举证责任由主张该抗辩的一方承担(Dr. Seuss Enterprises, L.P. v. ComicMix LLC, 983 F.3d 443, 459 (9th Cir. 2020))。该举证规则已经因其他理由被另一案件所作出的判决推翻(Jack Daniel’s Properties, Inc. v. VIP Products LLC, 599 U.S. 140(2023))。尤其鉴于第四项因素的重要性,二次使用人(通常为被告)“若无法提供关于相关市场的有利证据,将难以承担证明合理使用的举证责任”(Campbell, 510 U.S. at 590)。但版权持有人无需证明或提交市场损害的证据,其“可能仅需承担初步的相关市场界定责任”(Hachette Book Group, Inc. v. Internet Archive, 115 F.4th 163, 194 (2d Cir. 2024));Newegg Inc. v. Ezra Sutton, P.A., No. CV 15-01395, 2016 WL 6747629, at *2 (C.D. Cal. Sep. 13, 2016))。此外,由于合理使用的判断具有整体性,主张该抗辩的一方“需对整个抗辩事由承担举证责任,而非针对某一单项因素”(William F. Patry,Patry on Fair Use § 2:5 (May 2025 ed.))。

      合理使用是一个法律与事实混合问题,但“主要涉及法律分析”(Oracle, 593 U.S. at 24.)。因此,若与合理使用相关的实质性事实不存在真实争议,可通过简易判决予以处理(Leadsinger, Inc. v. BMG Music Publishing, 512 F.3d 522, 530 (9th Cir. 2008))。反之,若对被告使用行为是否构成合理使用存在真实的事实争议,则此类争议必须由陪审团裁决(Oracle, 593 U.S. at 23-25)。一旦陪审团认定相关事实成立后,是否属于合理使用才能被纳入到法官的裁决范围内(Id. at 23-24)。

      需着重指出的是,合理使用抗辩不成立,并不必然意味着被告必须即刻停止侵权行为。常见后果是,被告需向版权持有人支付许可费以获得行为授权。通过这种方式,被告就其行为可能对原作市场造成的损害向版权持有人作出补偿。只有在被告不愿或无力支付授权费用时,才需停止相关侵权行为。

二、案件事实与程序背景

(一)

      “生成式人工智能”是一种能够创造文本、图像、视频、音频等新内容的人工智能技术。1正如Meta公司所描述的,生成式人工智能模型通过从训练数据中提取“日益复杂的数学模式”,使网络能够基于所提取的模式输出预测结果或决策。简而言之,生成式人工智能模型通过“训练”识别大量训练数据集中的共同模式,进而根据用户提示,基于所识别的模式生成新内容。同理,模型的输出内容受限于训练数据中存在的模式。例如,若某图像生成模型的训练数据中仅有金门大桥这一座桥梁,当用户提示其生成桥梁图像时,模型很可能生成一座橙红色的悬索桥——也就是基于训练数据中提取的典型的桥梁模式所呈现的。

      大型语言模型(LLM)是一类专门用于理解和生成文本的生成式人工智能模型。用户可通过命令大型语言模型执行多种任务,如起草邮件、总结文档、编写计算机代码等。当前,知名的大型语言模型包括OpenAI的ChatGPT系列和谷歌的Gemini系列。

      大型语言模型通过分析训练数据中词语与标点符号之间的关联关系来学习和理解语言,其训练所基于的文本单位(词语和标点符号)通常被称为“标记”。大型语言模型通过学习海量文本,掌握词语间复杂的统计关系,并基于这些知识,通过预测序列中最可能出现的下一个词语来生成新文本,从而能够响应几乎任何用户要求。模型开发者还可通过“后训练”或“微调”提升模型在特定任务中的性能表现或调整输出内容(例如防止其生成冒犯性言论)。因此,与其他生成式人工智能模型一样,大型语言模型的输出内容也受限于其训练数据。若要想生成多种语言、风格或主题的文本,大型语言模型的训练数据集就必须庞大且多样。正如Meta公司的一名证人所言:“如果大型语言模型仅仅通过社交媒体帖子内容进行训练,那么其生成源代码的能力表现将会十分欠佳。”

      多样化的文本对训练至关重要,书籍是其中尤为宝贵的训练数据。这是因为书籍能为训练大型语言模型的“记忆”能力(技术术语为“上下文窗口”,指大型语言模型可同时在内存中存储的标记数量)和处理长文本的能力提供高质量数据。例如,记忆能力更强的大型语言模型能够处理更长的提示,在输出中整合更多信息,保留对话前期内容,从而实现更流畅的“交流”。正如Meta公司专家证人所言,是因为书籍具有“内容长且统一”的特点,即保持了特定的文体风格和逻辑结构。此外,书籍本身质量上乘,通常具备文笔规范、语法严谨等重要的指标优点(与网络文本相比,后者在这些指标上存在显著差异)。

(二)

      Meta平台公司不仅运营着Facebook、Instagram、WhatsApp等社交媒体服务,同时也是系列大型语言模型“Llama”的开发者。Meta于2023年2月发布Llama 1,同年7月发布Llama 2,2024年4月发布Llama 3及集成该模型的易用型人工智能聊天机器人Meta AI(其功能类似于ChatGPT),并且Meta计划将于2025年末进一步发布Llama 4。据Meta公司称,每一代Llama模型均在前代基础上有所改进:如Llama 2通过微调实现了“输出的安全性、质量和一致性等方面的提升”;Llama 3在“性能和效率上实现了重大提升”;Llama 4则在整体上相较于前代版本“规模更大、更先进”。在特定限制条件下,公众可免费下载所有Llama模型用于非商业用途;Llama 2和3也可免费下载用于商业用途。尽管Llama模型可免费下载,但Meta预计其2025年生成式人工智能相关收入将达20亿至30亿美元,未来十年累计收入将达4600亿至1.4万亿美元(See Pls. MSJ Ex. 8 at 12)。

      为获取训练模型所需的多样化且海量的文本数据,Meta采取了广泛收集文本的策略。Llama 1和2的训练数据中,约三分之二来自Common Crawl(一家收集并免费提供网站数据、元数据和文本的非营利组织),其余则来自维基百科、GitHub、ArXiv、Stack Exchange以及古腾堡计划与Books3(两个图书数据库)的组合2。除Books3外,其他来源均不包含本案所涉的受版权保护材料。

      尽管Meta需要(并实际获取和使用)各类训练数据,但正如前文所述的那样,书籍生成高质量训练数据的作用是尤为不可或缺的。Meta的人工智能研究人员和工程师多次探讨了书籍作为训练数据的绝佳优势以及获取更多书籍的必要性。一名Meta员工称:“我们能想到的最佳的训练数据资源绝对是书籍”(Pls. MSJ Ex. 18 at 2)。另一名员工则表示“对我们的项目发展而言,尽快获取书籍数据至关重要”(Id. Ex. 40 at 2)。因此随着Meta整体数据集的扩展,其对特定类型书籍的搜寻需求也持续增长。。

      起初,Meta希望通过授权方式获取书籍,并试图与多家大型出版商洽谈授权使用协议。Meta生成式人工智能部门负责人曾提及,公司拟投入高达1亿美元用于获取授权。但是随着授权使用谈判的不断推进,Meta发现获取授权难度远超预期:一方面,出版商通常不具有将书籍授权给人工智能进行训练的附属权利,此类权利一般是由作者个人持有,且不存在此类权利的集体授权组织(Sinkinson Decl. ISO Meta MSJ ¶¶ 58-59, 62)。即便部分出版商拥有相关授权使用权限,该权限的许可范围仅局限于特定地区而非全球(Meta MSJ Ex. 34 at 22:22-25:15)。另一方面,部分出版商明显无视了Meta主动的授权要约,仅有一家给予回应并提供了授权使用的定价方案(Id. at 23:11-14, 24:2-10)。

      最终,Meta开始考虑通过“影子图书馆”下载所需书籍(及其他文本)用于训练。影子图书馆是一类在线资源库,免费提供书籍、学术期刊文章、音乐、电影等内容的下载服务,无论相关内容是否受版权保护。Meta首次使用影子图书馆是在 2022年10月,该公司下载了“图书馆genesis”(又称LibGen)的数据库,用来评估其中作品对训练Llama模型的价值(Pls. MSJ Ex. 32 at 3)。若评估结果为正面,Meta计划随后为这些有训练价值的作品或同类作品签订授权协议(同前引)。但在2023年春季,因授权谈判失败且在上报首席执行官马克·扎克伯格后,Meta决定直接使用从LibGen获取的作品作为训练数据(Id. Ex. 61 at 5)。在确认LibGen的数据库作品中已包含其正与部分出版商洽谈授权的大部分作品后,Meta放弃了在获取授权使用许可谈判上进行努力(Id. Ex. 50 at 131:1-132:10, 383:5-384:12; id. Ex. 57 at 2; id. Ex. 58 at 3; see also id. Ex. 92 at 12.)。2024年初,Meta还下载了一个名为“安娜的档案”的资源库,该资源库整合了LibGen、Z-Library等多个影子图书馆资源库中的资源(id. Ex. 66 at 2-3)。

      为更快下载这些大型数据集,同时为了不影响自身平台的网络运行速度,Meta采用了“磁力链种子”(torrenting)的下载方式,该下载方式是一种通过从多个来源同时分发大型文件的小段内容实现下载的文件共享技术。这种文件共享方式通过多个节点同步传输大文件的片段,具体来说就是让多台存储相同文件的计算机系统协同工作。举例而言,当用户使用LibGen进行种子下载时,系统会从其他拥有该软件副本的用户那里获取各章节的碎片,当然这些用户都参与了种子网络。完成下载后,下载端的软件随后会把这些碎片重新组合,最终在本地电脑上还原出完整的原始文件3

      包括Meta所使用的 BitTorrent 在内的部分种子下载协议,默认设置为允许将通过种子下载的文件重新上传至其他计算机系统。这种重新上传可发生在文件下载过程中(业内称之为“吸血”(leeching))和下载完成后(业内称之为“做种”(seeding))。部分种子下载协议(包括 BitTorrent)的设计机制会优先向同时上传文件的用户提供下载服务。

      双方对Meta通过种子下载LibGen和Anna的档案这一事实无争议,但对Meta是否以及是在多大程度上通过“吸血”或“做种”上传了所下载数据存在争议。参与种子下载的Meta工程师编写了防止“做种”的脚本,但未针对“吸血”采取类似措施(See Pls. MSJ at 13; id. Ex. 71 ¶¶ 16-17, 19; id. Ex. 67 at 3, 6-7, 13-16, 24-26; see also Meta MSJ Ex. 38 at 4-5)。因此,原告主张,由于BitTorrent默认允许“吸血”,且Meta在下载过程中未更改该默认设置,Meta通过种子下载的数据必然重新上传了“至少部分”涉案书籍的内容。基于此,原告进一步主张Meta未采取措施阻止“吸血”是为了避免降低下载速度。Meta则回应称,即便其重新上传了部分下载数据,也不意味着必然上传了原告的涉案书籍。Meta同时指出,“吸血”问题直至近期才被列为本案的争议焦点问题。因时间紧张,Meta尚未有充分机会取证并答辩。

      无论如何,Meta都已将所下载的书籍加入了Llama模型的训练数据集,并对模型进行后训练来防止其“记忆”并直接输出训练数据中的特定的原文内容(包括受版权保护的材料)。这些被Meta称为“缓解措施”的训练努力似乎取得了成功。Meta的专家证人采用专门促使大型语言模型再现训练数据的方法(Meta称之为“对抗性提示”)进行测试。即便采用该方法,Meta的专家仍无法让任何模型从原告书籍中生成超过50个单词和标点符号(即“标记”)。而原告方的专家也仅在60%的测试中,成功让Llama模型从原告书籍中复述出50个单词和标点符号。她还作证称Llama无法复现“任何显著比例”的内容。(Meta MSJ Ex. 24 at 237:16-19; see also Pls. Ex. 79 ¶¶ 70-72, 79, 82-83, 92; Meta MSJ Ex. 23 at 179:22-25, 180:17-181:16)。简言之,目前无法通过Llama模型读取或以其他方式实质性获取原告的书籍内容。

(三)

      原告由13名已出版作品的作者组成,他们拥有多部作品的版权。这些作品以小说为主,还包括戏剧、短篇小说、回忆录、散文和非虚构类书籍。例如,Sarah Silverman的喜剧回忆录The Bedwetter、Rachel Louise Snyder关于家庭暴力及其应对的非虚构作品No Visible Bruises: What We Don’t Know About Domestic Violence Can Kill Us、Junot Díaz的普利策奖获奖小说The Brief Wondrous Life of Oscar Wao,以及Andrew Sean Greer的普利策奖获奖小说Less。原告享有版权的所有书籍均存在于Meta下载的数据集中,包括Books3和安娜的档案数据库。Meta共下载了至少666本原告享有版权的书籍副本。

      每名原告均表示愿意将其书籍授权用于生成式人工智能训练,但Meta未就授权事宜与他们接洽。尚无任何原告曾将书籍授权给任何公司用于大型语言模型训练,也未收到过此类授权请求。

      原告提起本案诉讼,主张代表所有其作品被用于Llama模型训练的版权持有人组成集体,提出了直接版权侵权(基于Meta复制其书籍的行为)、辅助版权侵权、违反《数字千年版权法》(DMCA)删除版权管理信息、不正当竞争、不当得利及过失等多项诉讼请求,寻求损害赔偿、返还不当得利、禁令及确认性救济,但未明确说明其寻求禁令救济的具体内容。例如,原告未请求发布初步禁令,禁止Meta使用其作品进行训练或要求Meta在排除其书籍的情况下重新训练现有Llama模型(Cf. Concord Music Group, Inc. v. Anthropic PBC, No. 24-cv-3811, 2025 WL 904333, at *3-4 (N.D. Cal. Mar. 25, 2025) ,该案涉及音乐出版商就人工智能模型未来训练提出的初步禁令请求)。

      除直接版权侵权请求外,其他请求均在诉讼初期被驳回。原告随后获准修改起诉状,将版权侵权请求扩展至包含发行侵权理论(基于Meta通过种子下载重新上传数据的主张),并新增一项不同的《数字千年版权法》请求和一项基于《加利福尼亚州综合计算机数据访问与欺诈法》(CDAFA)的请求。Meta公司提出驳回新诉求的动议,法院批准了针对CDAFA法案的动议,但驳回了DMCA法案的相关请求。

      此类案件通常下一步是由具名原告提出集体诉讼认证动议,但本案当事人选择先就具名原告的个人请求提出简易判决动议。对被告而言,这一选择存在着权衡取舍:一方面,若获得有利裁决,可在面临高昂且繁重的集体诉讼相关证据开示和动议程序前终结案件;另一方面,对被告有利的裁决仅对具名原告具有约束力,拟议集体中的其他成员仍可就相同主张提起诉讼。本案中,Meta提议先就具名原告的个人请求进行简易判决,本院采纳了该方案。

      因此,在与具名原告请求实体相关的证据开示程序结束后,原告提出部分简易判决动议,主张其已初步证明版权侵权成立,而Meta的合理使用抗辩绝无可能成立以否定该主张。Meta不否认原告已初步证明其构成侵犯复制权,但Meta反对原告的动议,并提交了反诉性质的交叉动议,主张其复制行为从法律角度而言符合合理使用的情形。

      Meta还就原告的《数字千年版权法》侵权主张提出了简易判决动议,该动议将在另一项裁定中予以批准。关于原告主张Meta通过“吸血”或“做种”发行其作品构成侵权的请求,双方均未提出简易判决动议,故该问题仍为本案待决事项4

      本案还收到了6份法庭之友意见书(amicus briefs):多位知识产权法教授与电子前沿基金会(一家公民自由组织)提交了支持Meta公司的意见书。版权领域专家团队、版权联盟(创作者组织)、美国出版商协会以及国际科技出版商协会则联合提交了支持原告方的意见书。

三、因素一:使用的目的与性质

      第一项因素考量“复制者使用原作的原因与性质”(Warhol, 598 U.S. at 528)。与“使用目的与性质”相关的因素包括:该使用是否具有“商业性质或属非营利教育目的”(17 U.S.C. §107(1))。另一要素可能是该使用是出于善意还是恶意(尽管根据现行法律,这一点是否相关尚不明确)(Oracle, 593 U.S. at 32-33)。

      但第一项因素的核心在于二次使用是否具有“转换性”——即“新作品是仅取代原作的创作目标(替代原作),还是增添了新的内容、具有新的目的或不同的性质”(Warhol, 598 U.S. 528)。允许具有“独特目的”的使用通常符合版权法目标,因为这有助于促进新表达的产生,且“不会削弱创作动力”(Id. at 531)。反之,与原作目的相同的二次使用“更可能为公众提供实质上可替代原作的作品”(Id. at 531-32)。

      本项判定因素对Meta有利。Meta对原告书籍的使用具有与书籍本身“不同的目的和性质”,即高度的转换性,这一点毋庸置疑。Meta复制书籍的目的是训练其大型语言模型——这类创新工具可用于生成多样化文本并执行多种功能(Oracle, 593 U.S. 30),该判决认为使用受版权保护的计算机代码“创建一个程序员可轻松使用的新平台”具有转换性。用户可要求Llama编辑邮件、翻译文本片段、根据假设场景编写短剧或执行其他多种任务。相比之下,原告书籍的目的是供读者娱乐或学习。

      原告们对Llama的用途并无实质异议。相反,他们承认大型语言模型的“最终用途”包括“充当私人导师”、“辅助创意构思”和“帮助用户生成商业报告”。多名原告作证称其将大型语言模型用于多种目的,且均与创作或阅读小说、传记等表达性作品不同——例如,查找食谱、获取税务或医疗建议、翻译文件或开展研究。所有这些功能都与原告书籍的常规用途大相径庭。因此,复制书籍以开发能实现这些功能的工具,其用途和性质与书籍本身存在本质区别。

(一)

      原告方的法学教授法庭之友主张,Meta的使用与书籍的目的和性质相同,因为大型语言模型学习书籍的过程类似于人类阅读书籍。也有人将Meta复制书籍训练Llama的行为类比为教授复制书籍给学生,让学生利用书中知识(结合从其他书籍获取的知识)成就事业。但这两类类比之间的关系存在重大差异。

      首先,大型语言模型“理解”书籍的方式与人类截然不同。大型语言模型通过学习“词语在不同语境中使用的统计模式及规律”来处理文本,其运作机制为:从训练数据中提取一段文本,删除其中一个词语,预测该词语的替代词是什么,根据预测结果是否正确调整其对语言的整体理解,这一过程往往需要针对不同文本重复数十亿或数万亿次。这与人类阅读书籍的方式大相径庭。

      其次,与假设中的教授不同,Meta公司并非只是将原告的书籍分发给个人。该公司复制这些书籍是为了开发一款能生成多样化文本的工具。任何人都可以使用该工具进行创作——无论是作为头脑风暴的辅助工具,还是为创意写作项目(如剧作家兼编剧黄哲伦)提供研究支持,亦或是通过编程开发新软件(如Lockheed Martin公司)。通过打造人人可用的工具,Meta公司的复制行为具有指数级放大创意表达的潜力,而这种效果是单打独斗的个人教学所无法企及的(Oracle, 593 U.S. 30)。

      与版权法专家不同,原告方提出了另一套(论证力度更为薄弱的)论点来主张Meta公司的使用行为不构成转换性使用。。例如,原告称Llama对其书籍不具有“批判性影响”(如批评或戏仿作品那样)。但“对原作的批评或评论并非‘唯一可最终构成合理使用的情形’”(Romanova, 138 F.4th at 115)。恰恰相反,若某种使用能够“为任何公共利益主题提供有价值的信息”或“为公众提供重要服务”,则可能具有正当性,尤其是当这种益处是“在不公开复制内容的前提下实现”时,同上。

      此外,原告主张,由于Llama在收到提示时可输出“模仿”其作品或写作风格的内容,故Meta的使用不具有转换性,仅相当于“重新包装”其书籍。原告援引证据称Meta训练Llama以模仿特定作家的风格(Pls. Reply Exs. 111–14)。但该证据无法证明Meta训练Llama是为了重新包装原告的作品。相反,如前所述,即便采用专门促使模型再现训练数据的“对抗性”提示,Llama 也无法生成超过50个来自原告书籍的词语(Pls. Reply Ex. 79 ¶¶ 79, 82–83, 92),且无证据表明其会生成可构成“重新包装”的长文本片段。更无证据表明(如原告方法庭之友所主张)Meta开发Llama的目的是生成与原告作品竞争的书籍(而未达到重新包装的程度)5。因此,该证据最多仅能证明Meta希望Llama能够生成特定风格的文本,但风格不受版权保护——仅表达形式受保护(See 17 U.S.C. § 102(b); cf. Mattel, Inc. v. MGA Entertainment, Inc., 616 F.3d 904, 916 (9th Cir. 2010))。即便Llama的一项潜在用途是生成与原告书籍不受保护元素相似的文本,也不意味着Meta的复制行为与原告书籍具有相同目的6

(二)

      如前所述,二次使用的转换性并不决定第一项因素的分析结果,更不用说整个合理使用的判断。Meta公司使用行为的商业性质也具有相关性。尽管Llama可通过免费许可获取,但其开发初衷具有商业目的,且Meta预计其未来十年相关收入将达4600亿至1.4万亿美元(Pls. MSJ Ex. 8 at 2)。具有商业性质的使用“倾向于不利于合理使用的认定”,因为在其他条件相同的情况下,商业复制的正当性低于非商业复制(Warhol, 598 U.S. 537 & n.13;Harper & Row, 471 U.S. 562)。因此Llama可能为Meta带来巨额收入这一事实具有相关性,不应像Meta所申辩的那样被完全忽视。如下文所述,若复制行为会对受保护作品的市场造成损害,复制行为是出于营利目的还是学术目的等因素可能具有重要影响。然而,商业性质并非第一项因素的决定性因素,且在二次使用具有高度转换性时,其重要性会降低(Oracle, 593 U.S. 32;Kelly v. Arriba Soft Corp., 336 F.3d 811, 818 (9th Cir. 2003))。因此,尽管Meta通过开发基于原告作品训练的产品可能获得巨额利润这一事实与整体合理使用分析相关,但并未使第一项因素向有利于原告的方向倾斜。

      Meta获取原告书籍的方式同样存在类似问题。原告认为Meta从影子图书馆下载书籍且未以“授权副本”为起点就能自动胜诉的说法并不成立。所谓Meta的下载行为构成“盗版”因而不能作为合理使用主张,这种说法本身就有悖逻辑——因为合理使用分析的核心就是要判断特定复制行为是否违法(电子前沿基金会提交的法庭之友意见书)。尽管联邦巡回上诉法院曾在Atari Games Corp. v. Nintendo of America Inc案(975 F.2d 832, 843 (Fed. Cir. 1992))中提出相反观点,但其对所参见案件中“需从授权副本开始使用”的表述存在偏颇。(Religious Technology Center v. Netcom On-Line Communication Services, Inc., 923 F. Supp. 1231, 1244 n.14 (N.D. Cal. 1995),该案还讨论了Atari案的推理,并得出结论,即其所参见的案例错误解读了Harper & Row案。

      但Meta主张其使用影子图书馆与合理使用判断无关,这一观点同样错误。该行为在以下几方面具有或可能具有相关性:

      首先,Meta使用影子图书馆与善意问题相关,而善意“通常在第一项因素下考量”(Oracle, 593 U.S. at 32)。关于善意是否与合理使用相关,法律仍处于发展中:一方面,有观点认为“对善意在合理使用分析中是否具有作用持怀疑态度是合理的”(同前引);另一方面,也有判例认为“主张合理使用的一方必须以符合善意和公平交易原则的方式行事”(Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146, 1164 n.8 (9th Cir. 2007)),且即便甲骨文案表达了“怀疑”,上述表述仍具有约束力(Triller Fight Club II LLC v. H3 Podcast, No. CV21-3942, 2023 WL 11877604, at *8 (C.D. Cal. Sep. 15, 2023))。实际上,善意与否似乎不应具有特别相关性:合理使用的目的是允许不会替代原作的新表达,而使用行为出于善意还是恶意,并不影响其替代原作的可能性7。但即便善意具有相关性,结合本案简易判决记录的其他内容,该因素也不会产生实质影响(Oracle, 593 U.S. at 33,称善意是“依赖具体事实的考量因素”,在该案中“不具有决定性”)。

      其次,如果从影子图书馆下载受版权保护材料可以使图书馆运营者获益,进而支持和延续其未经授权复制、发行受版权保护作品的行为,则该下载行为具有相关性。在绝大多数情况下,此类点对点文件共享构成版权侵权。Meta使用的部分图书馆已被认定构成侵权(Elsevier Inc. v. Sci-Hub, No. 15-cv-4282, 2017 WL 3868800, at *1-2 (S.D.N.Y. June 21, 2017),作出缺席判决,认定LibGen构成故意版权侵权),部分运营者甚至因刑事版权侵权被起诉(See Indictment, United States v. Napolsky, No. 22-cr-525 (E.D.N.Y. Nov. 16, 2022), Dkt. No. 4)。因此,若Meta的下载行为支撑了这些图书馆的运营或延续了其违法行为(例如,图书馆通过Meta的访问获得广告收入),则可能影响Meta使用行为的“性质”。但原告未提交任何相关证据。无论如何,由于此类影响与第四项因素的关联性更强(可能导致更多人使用图书馆,进而引发更多侵权行为),下文将在分析第四项因素时予以讨论8

(三)

      与Meta使用性质(进而与第一项因素)相关的最后一个问题,是Meta下载原告书籍与使用书籍训练Llama之间的关系。原告主张应将两者完全割裂看待,这一观点显然是难以成立的。诚然,Meta的下载行为与训练过程中的复制行为不同,但仍需结合其最终的高度转换性目的(训练Llama)进行考量,(Authors Guild v. Google, Inc. (Google Books), 804 F.3d 202, 216-18 (2d Cir. 2015)),结合二次使用的整体目的(创建可搜索数据库)考量书籍数字副本的创建行为(Warhol, 598 U.S. at 533)。本案指出不同使用需分别考量,但“同一复制行为用于某一目的时可能构成合理使用,用于另一目的时则可能不构成”;相反观点参见Bartz案(contra Order on Fair Use at 18, Bartz, No. 24-cv-5417)。由于Meta对原告书籍的最终使用具有转换性,其下载行为也具有转换性。

      原告还主张,Meta下载了多份包含其书籍的数据库副本,但仅有部分的数据副本用于训练大型语言模型,故未用于训练的副本下载不构成合理使用。但原告所指的所有下载行为,其最终目的均为训练大型语言模型。原告称Meta仅将 2022年10月首次下载的 LibGen用于评估其中书籍是否适合作为训练数据(Pls. Reply at 12),但这是训练大型语言模型的合理前期步骤(See Pls. MSJ Ex. 32 at 3)。原告称Meta在后续下载LibGen 及首次下载安娜的档案时,将其与出版商目录进行交叉比对,以评估是否仍有必要推进授权谈判(或确认这些数据库是否已包含所有可授权书籍),但原告承认这些下载的副本也用于训练(See Pls. Reply at 13-14)。且无证据表明这种交叉比对涉及额外复制行为,故仅交叉比对本身不产生侵权责任,也无需单独构成合理使用(Warhol, 598 U.S. at 534 & n.10),在Warhol案还讨论合理使用标准对不同使用行为的适用。

      最后,原告方声称,在Meta放弃授权协议并决定将从影子图书馆下载的书籍作为训练数据后,还下载了其他几份“盗版数据集副本,其中仅有部分最终被纳入语言模型训练”。但原告方未能提供任何证据支持这一说法。他们仅参见一份证人证言——某Meta员工表示,她并不清楚公司是否使用了所有下载的LibGen数据集副本(Pls. Reply Ex. 109 at 66:17-20)。另有两名Meta人工智能员工称,他们并不知晓有未被用作训练数据或相关实验(如前述实验)的下载行为(Pineau Decl. ISO Meta Reply ¶ 6; Kambadur Decl. ISO Meta Reply ¶ 7)9。无论如何,即便Meta确实下载了部分未用于训练的数据副本,合理使用原则也并不要求二次使用者尽可能减少复制次数(Sony Computer Entertainment, Inc. v. Connectix Corp., 203 F.3d 596, 601, 605 (9th Cir. 2000)。

四、因素二:受版权保护作品的性质

      第二项因素承认,“部分作品更接近版权保护的核心范围,因此复制此类作品时,成立合理使用的难度更大”(Campbell, 510 U.S. at 586)。获得更强版权保护的作品包括书籍、电影等创造性作品;获得较弱保护的作品包括计算机代码(Oracle, 593 U.S. at 29)。

      本项因素对原告有利。原告的书籍(以小说、回忆录、戏剧为主)是“版权法所珍视和旨在保护的”高度表达性作品(Hachette, 115 F.4th at 187;Authors Guild, Inc. v. HathiTrust, 755 F.3d 87, 98 (2d Cir. 2014))。其中部分作品(如自传)虽为纪实类而非虚构类,但这并未实质改变结论,因为版权仍保护作者“表达事实的方式”(Google Books, 804 F.3d at 220)。

      Meta主张本项因素仍对其有利,理由是其仅使用原告书籍的“功能性元素”,而非利用其创造性表达。Meta主要援引第九巡回上诉法院的两起“中间复制”案件:在这两起案件中,游戏公司复制游戏机制造商受版权保护的代码并进行反向工程,以理解代码的特定功能元素,进而开发可与原告产品兼容的自有产品。第九巡回上诉法院均认定,被告的合理使用抗辩可能成立,因为尽管被告复制了原告代码的表达性元素,但其目的仅为获取代码中不受保护的功能性元素(Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510, 1520-26 (9th Cir. 1992);Connectix, 203 F.3d at 602)。

      但与上述案件不同,Meta对原告书籍的使用依赖于书籍的创造性表达。正如Meta自身所指出的,大型语言模型通过学习“词语与概念之间的统计关系”以及收集“关于词序、词频(词语的使用及使用频率)、语法和句法的统计数据”进行训练。而词序、选词、语法和句法正是人类表达思想的方式(Harper & Row, 471 U.S. 548),该判决认为“词语的排序与选择”即便在对表达的狭义解释下也构成表达)。因此,即便大型语言模型仅学习这些词句之中“统计关系”,但这些关系仍是创造性表达的产物。即便如前所述,Llama 处理这些表达的方式与人类不同,仍不影响这一事实的成立。

      为支持“Meta复制原告书籍是为了提取其中的非表达性信息(故应适用中间复制案件的规则)”的主张,Meta援引了谷歌图书案。但需要注意的是,该案与本案存在显著区别。在谷歌图书案中,原告主张谷歌复制其书籍并创建数据库供用户搜索包含特定关键词的书籍的行为,构成版权侵权(804 F.3d 207-10)。与本案不同,该案中的技术具有内容中立性:无论数据库包含的是胡言乱语的书籍还是未知语言的书籍,其功能均不受影响——若用户搜索相关文本,这些书籍均会显示。而在本案中,相比之下,若Meta的大型语言模型要生成高质量文本,就需要连贯性强、文本质量较高的训练数据,换言之,Meta的大型语言模型的训练需要此类高质量的表达内容。因此,“中间复制”案件的规则不适用于本案(Disney Enterprises, Inc. v. VidAngel, Inc., 869 F.3d 848, 862 n.12 (9th Cir. 2017))。

      然而,第二项因素“在合理使用争议的决定中鲜有发挥重要作用”(Google Books, 804 F.3d at 220),当被复制作品已公开发表时,该因素的适用效力会“大打折扣”——因为此时二次使用者无法干涉创作者对其作品首次公开的权利(VHT, Inc. v. Zillow Group, Inc., 918 F.3d 723, 744 (9th Cir. 2019);Kelly, 336 F.3d at 820)。因此,第二项因素对原告有利这一事实,并不会对整体分析产生实质性影响。

五、因素三:所使用部分占受版权保护作品整体的数量与实质性

      第三项因素考量“所使用部分的数量与实质性”是否“与复制目的具有合理性”(Campbell, 510 U.S. 586;17 U.S.C. § 107 (3))。该因素与第一项因素存在关联,因为“允许复制的范围随使用目的与性质而变化”(Id. at 586-87)。

      首先需要指出的是,复制数量在本案中似乎并非关键因素。例如,在以音乐恶搞戏仿作品为例,大篇幅地复制原作的可能增加戏仿作品“替代市场的潜力”(See id. at 589)。但鉴于Meta的大型语言模型无法输出原告书籍的实质性内容。若Meta复制的内容更少,其行为导致原作直接替代产品产生的可能性会如何降低更是难以判断(Hachette, 115 F.4th 188-89),该案判决指出“相关考量……并非复制者使用的受版权保护材料数量,而是‘向公众提供的受版权保护材料数量’”(Fox News Network, LLC v. TVEyes, 883 F.3d 169, 179 (2d Cir. 2018))。

      无论如何,本项因素的判断结果对Meta有利,尽管该公司完整复制了原告书籍的全部内容。考虑到Meta的转换性目的,其复制数量具有合理性(Oracle, 593 U.S. 34)。各方均认可,大型语言模型训练所使用的高质量材料越多,该模型的工作性能表现就越好(Ungar Decl. ISO Meta MSJ ¶¶ 42-48;Pls. Reply Ex. 115 ¶¶ 79-80)。因此,向大型语言模型输入整本书籍比输入半本书籍的训练效果更好。有鉴于此,Meta“使用作品的全部内容具有合理必要性”(HathiTrust, 755 F.3d 98)10

六、因素四:对受版权保护作品潜在市场或价值的影响

      第四项因素既考量“被指控侵权人的特定行为造成的市场损害程度”,也考量“‘若允许被告此类行为不受限制地广泛发生,是否会对原作潜在市场造成实质性不利影响’”(Campbell, 510 U.S. 590;3 M. Nimmer & D. Nimmer:Nimmer on Copyright § 13.05 (1993))。与该因素相关的“唯一损害”是“替代性市场的损失”(Id. at 593)。反之,若二次作品通过批评或戏仿削弱原作需求,此类损害不受《版权法》规制(Id. at 591-92)。此外,“复制行为可能带来的公共利益”也是该因素的重要考量”(Oracle, 593 U.S. 35)。

      如前所述,第四项因素“无疑是合理使用判断中最重要的单一因素”(Harper & Row, 471 U.S. 566)。因此,Meta主张“因第一项判断因素明显支持其主张,相关审查分析就应止步于此”的观点是错误的。恰恰相反,鉴于第四项判断因素的重要性,完全可能出现二次使用具有高度转换性,但因允许此类使用会对原作市场造成过大损害而不构成合理使用的情形。同理,在第一项因素对被告极为有利的案件中,原告若要否定合理使用,唯一的机会便是在第四项因素上取得决定性胜利。

      在涉及使用受版权保护作品训练生成式人工智能模型的案件中,原告可能通过三种方式主张被告的复制行为损害了作品市场(或若此类复制广泛发生将造成损害):第一,原告可能主张模型会再现其作品(或实质性相似的输出内容),使用户可通过模型免费获取其作品或替代产品;第二,原告可能主张存在作品用于人工智能训练的授权市场,未经许可的训练复制损害了该市场(或阻碍其发展);第三,原告可能辩称,即便模型无法再现其作品或生成实质性相似内容,也能生成主题或类型相似的作品,从而与原作形成竞争,构成间接替代。在本案中,前两项主张均不成立;第三项主张虽更具说服力,但原告的举证力度极为薄弱,不仅未对分析产生实质影响,甚至不足以构成推翻简易判决的事实争议。

(一)

      若Llama能够生成原告书籍的实质性内容片段(或与书籍构成侵权性相似的文本),用户可能会转而阅读这些输出的内容而非原作,从而威胁书籍市场。但该损害理论在本案中不成立,因为如前所述,Llama无法生成原告书籍的实质性内容。双方专家均确认,即便采用专门促使大型语言模型再现训练数据的“对抗性”提示,Llama也无法生成超过50个来自原告书籍的词语(Pls. Ex. 79 ¶¶ 71-72, 82-84, 92)。原告的专家证人亦承认,Llama 无法再现其书籍“任何占比显著的”内容(Meta MSJ Ex. 24 at 237:16-19)。相比之下,在谷歌图书案中,第二巡回上诉法院认定,即便用户可看到累计占书籍16%的片段,二次使用行为也“未对版权持有人的作品价值或版权收入造成重大损害”(804 F.3d 224)11。Llama在被诱导提示的情况下仅能复现原告书籍的极小部分原文内容,显然这种能力状况不足以对原告书籍的“潜在市场或价值”产生“实质性影响”(17 U.S.C. § 107 (4))。

(二)

      原告关于市场损害的核心理论是:Meta未经许可将其书籍用于大型语言模型训练,损害了其书籍用于该目的的授权市场。原告在第四项因素的讨论中,几乎全部篇幅都用于阐述该理论。双方因此围绕“普通贸易书籍的授权市场是否存在或可能发展”展开了大量争论。

      但该市场是否存在或可能发展均无关紧要,因为原告无权垄断该市场。在所有合理使用案件中,“若将潜在市场界定为涉案使用的理论授权市场,则原告必然会主张存在潜在市场损失”(Tresóna Multimedia, LLC v. Burbank High School Vocal Music Association, 953 F.3d 638, 652 (9th Cir. 2020);3 M. Nimmer & D. Nimmer:Nimmer on Copyright § 13.05 (2019))。因此,为避免第四项因素的分析陷入循环论证(导致在所有案件中均有利于版权持有人),因丧失转换性目的使用的授权费用而产生的损害,不能被认可(Bill Graham Archives v. Dorling Kindersley Ltd., 448 F.3d 605, 614-15 (2d Cir. 2006);Oracle, 593 U.S. 38)。“警惕循环论证的风险”(3 M. Nimmer & D. Nimmer:Nimmer on Copyright §13.05 (2019))。

(三)

      使用受版权保护的书籍训练大型语言模型可能损害作品市场的第三种方式是:助力快速生成大量与原作竞争的作品,即便这些作品本身不构成侵权。假设人们能够(或很快能够)使用大型语言模型,以远少于人工创作的时间和创造力生成海量文本,进而创作书籍并销售,与人类作者的书籍争夺销量和关注度。事实上,这种情况在一定程度上已开始出现——原告的一名专家简要提及有报道称人工智能生成的书籍“充斥亚马逊平台”(Pls. MSJ Ex. 76 ¶ 199;193-207 ,id. ¶¶ 193-207)。考虑到通过提示大型语言模型创作书籍极为容易,人们甚至可能愿意免费提供这些书籍。此类竞争造成的损害即为“市场稀释”损害,或如某评论者所描述的“间接”替代损害(区别于第一种情形的“直接”替代损害)(Matthew Sag, Fairness and Fair Use in Generative AI, 92 Fordham L. Rev. 1887, 1916-20 (2024))。

      当然,并非所有受版权保护的作品都会因人工智能生成的竞争作品而遭受同等程度的市场稀释。例如,人工智能生成的书籍似乎不太可能显著分流知名作者的销量——读者购买这些作者的书籍是为了阅读特定作者的作品。但不难想见,人工智能生成的书籍可能会排挤不太知名的作品或新锐作者的作品。人工智能生成的书籍或许对阿加莎・克里斯蒂的作品市场影响甚微,但完全可能导致下一个阿加莎・克里斯蒂难以获得关注或销量不足以维持创作12

      这种影响对特定类型作品可能更为显著。例如,能够随意生成高质量图像的人工智能模型,可能会严重冲击图像市场,削弱人类创作图像的动力;能够生成准确时事信息的大型语言模型,可能会严重冲击纸媒市场;大型语言模型能够创作园艺护理类书籍,可能会使此类非虚构作品市场大幅萎缩。对于小说作品,其影响可能因作者个人或文学流派而异。

      这种差异部分源于某些作品功能性较强,对作者创造力的依赖较低。读者选择新闻文章时,追求的是清晰、准确、简洁地了解时事(或过往事件);而选择小说时,关注的因素则多得多——例如基调、主题深度、写作风格、情节、人物,或是希望书籍包含多重转折或特定类型的人物成长。这些元素高度依赖作者的创造力。尽管新闻文章也体现了作者的创造力(尤其是在结构、措辞等方面),但普通小说中的创造性选择远多于普通新闻文章,且这些选择对小说质量更为重要。与此相关的是,人们可能更在意小说是否由人工智能生成(而非人类创作),而对新闻文章的创作者身份关注度较低13

      还需指出的是,在考量市场稀释时,恰当的比较基准并非“没有大型语言模型的世界”,而是“大型语言模型未使用受版权保护作品训练的世界”。仅使用公有领域作品训练的大型语言模型,或许仍能快速生成大量书籍与受版权保护的书籍竞争。但案卷中有大量证据表明,使用书籍训练能显著提升大型语言模型的创造力和生成长文本的能力(Pls. MSJ Ex. 25 at 2;id. Ex. 27 ¶ 183)。且由于训练数据越多,大型语言模型性能越好,仅使用公有领域作品训练的模型,在其他条件相同的情况下,性能必然远逊于同时使用受版权保护作品训练的模型(Ungar Decl. ISO Meta MSJ ¶ 45)。因此,在多数情况下,使用受版权保护的书籍训练大型语言模型,会使其更有能力生成稀释原作品市场的内容。

      Meta及其法学教授法庭之友,以及前文中引用的马修・萨格的文章均主张,市场稀释损害效应不应当纳入到第四项因素的考量范围。他们认为,大型语言模型输出内容造成的损害仅在输出内容本身构成侵权(即模型再现受版权保护材料或生成实质性相似文本)时才具有相关性(May 1 Hr’g Tr. at 22:7-24:21; 108-09;Amicus Br. of Intellectual Property Law Professors at 9-10;92 Fordham L. Rev. at 1919-20)。但这一观点显然不能成立。诚然,若大型语言模型能够再现原作或生成实质性相似文本,更容易认定其会损害被复制书籍的市场。但即便输出内容相似度较低(如相同主题或类型的书籍),仍可能与训练数据中的书籍争夺销量。通过分流销量,或充斥实体店铺与在线平台导致部分书籍无人问津,这些输出内容会削弱作者的创作动力——而这正是版权法旨在防止的损害。

      最高法院曾指出,第四项因素所关切的“唯一损害”是“市场替代损害”(Campbell, 510 U.S. at 593)。但间接替代仍属替代:若某人购买了人工智能生成的言情小说而非人类创作的言情小说,人工智能生成的小说即替代了人类创作的小说。这与批评或评论造成的(不受规制的)损害不同——后者虽可能削弱原作需求,但并未成为原作的替代品。

      与此相关,Meta主张“来自非侵权二次作品的合法竞争”不应当纳入到第四项判断因素中去,并援引“中间复制”案例支持该观点(Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510, 1523-24 (9th Cir. 1992);Sony Computer Entertainment, Inc. v. Connectix Corp., 203 F.3d 596, 607 (9th Cir. 2000))。但这些案件推理的核心逻辑在于,二次使用人的竞争产品并未利用其复制作品中的创造性表达。相反,如前所述,大型语言模型之所以能更高效地生成文本(包括竞争作品),正是因为其学习了受版权保护书籍中的创造性表达。因此,此类竞争不属于上述案件所指的“合法”竞争。

      诚然,在多数版权案件中,市场稀释或间接替代的概念并非特别重要。这是因为在典型案件中,原作仅与单一二次作品进行比较。若二次作品与原作存在一定相似性但未达到实质复制程度,可能仅对原作市场产生轻微间接影响,但通常无关紧要。需重申的是,第四项因素考量的是“被告此类行为”若“广泛发生”,是否会对“原作潜在市场造成实质性不利影响”(Campbell, 510 U.S. at 590 (emphasis added) (quoting 3Nimmer §13.05))。间接替代造成的轻微损害,并不足以决定第四项因素的结果或合理使用的整体判断。例如,若第一项因素对二次使用人有利,法律可能容忍轻微竞争(See Google Books, 804 F.3d at 224)。在涉及单一“相似但非过于相似”的二次作品的案件中,市场稀释损害通常不足以产生实质影响——即便考量“被告此类行为广泛发生”的效果(Oracle, 593 U.S. at 38(quoting 4 Nimmer §13.05)),一次仅创作一件间接替代作品,对原作市场的影响也十分有限。

      本案则有所不同。本案既非原作与单一二次作品的比较案例,也不同于此前涉及数字工具创建的合理使用案件判例(Google Books and Perfect 10)——那些案件中的工具最多仅能用于获取原作的部分或全部内容。本案涉及的技术能够生成数百万件二次作品,且仅需耗费创作原作所需时间与创造力的极小部分。其他任何使用行为(无论是创作单一二次作品还是创建其他数字工具),都不具备像训练大型语言模型这样充斥市场、产生大量竞争作品的潜力。因此,市场稀释的概念在本案中显得尤为重要。

      Meta辩称“因此类损害此前从未在案件中产生影响,故而不应予以考量”,这犯了最高法院告诫当事人和法院应避免的错误:即机械套用过往案件的概念,而不结合具体语境进行考量。合理使用是一项灵活的原则,需考量“技术的重大变革”(Oracle, 593 U.S. at 19 (quoting Sony, 464 U.S. at 430);Sony Corp. of America v. Universal City Studios, Inc., 464 U.S. 417, 430 (1984))。法院不能因某一问题此前未出现,就对新技术可能严重削弱创作动力的明显风险视而不见。事实上,在类似案件中,市场稀释损害很可能使原告在第四项因素上取得决定性胜利,进而在整体上赢得对合理使用争议否定的胜利。

      但法院不能依据对其他案件的预判裁决本案,而必须基于当事人提出的主张和提交的证据。因此,问题在于:本案这13名原告是否提交了足够证据支持其在该项因素上的主张?更准确地说,结合本案程序背景,问题的关键在于原告是否提交了足够证据,提出了足以将市场稀释问题交由陪审团裁决的真实实质性事实争议?答案是否定的。

      原告在起诉状中仅主张了两类市场损害:一是Llama用户可再现其书籍文本;二是Meta的复制行为损害了作品用于人工智能训练的授权市场。至于“允许Meta等企业复制其作品训练Llama等产品将不可避免导致其作品市场被同类作品充斥”这一市场稀释主张,原告在起诉状中未提及,在其简易判决动议中也未涉及。

      鉴于起诉状中的主张,Meta的交叉简易判决动议自然聚焦于反驳前两项理论。但Meta还在动议中指出,原告未提交任何证据证明其使用原告书籍训练 Llama损害了书籍销量(Meta MSJ Exs. 8-9),并提交了专家证词证明,至少在Llama 3发布后的短期内,其发布未对原告(或 Llama训练数据中其他书籍)的销量产生可识别的影响(Sinkinson Decl. ISO Meta MSJ ¶¶ 18-35)。

      在反对意见中,原告的核心回应是,基于其前两项理论,Meta的主张无关紧要。原告仅简要提及一名专家的报告——该专家简要讨论了间接替代概念,并提到有文章称人工智能生成的书籍开始充斥亚马逊平台(Pls. Reply Ex. 126 ¶¶ 193-207)。但该讨论引发的问题远多于答案:

      第一,Llama是否具备生成此类书籍的能力?若当前不能,短期内是否能够?答案或许是肯定的,但并非必然。例如,大型语言模型可被设置为无法生成书籍长度或书籍风格的内容。因此,某一大型语言模型能够创作书籍,并不必然意味着 Llama 当前或短期内能够做到。

      第二,这些人工智能生成的书籍是什么类型?它们是否与萨拉・西尔弗曼的回忆录、原告马修・克拉姆的短篇小说集、蕾切尔・路易丝・斯奈德关于家庭暴力的纪实作品构成竞争?原告既未对其作品市场进行任何分析,也未讨论这些市场是否或可能受到人工智能生成书籍的影响,更未解释专家报告中提及的现有人工智能生成书籍是否与这些市场存在竞争关系。

      第三,此类竞争对同类书籍销量的实际影响如何?是彻底排挤和压制原作,还是仅轻微蚕食其销量?或者如前所述,此问题是否因书而异,举例而言,如若言情小说读者愿意购买人工智能生成的作品,而希望阅读萨拉・西尔弗曼回忆录的读者仍会选择原作而非人工智能生成的喜剧回忆录?无论目前影响如何,随着人工智能生成书籍数量增加及大型语言模型生成类人文本能力提升,未来这些影响是否可能扩大和加剧?

      第四,在“大型语言模型开发者可复制原告书籍”与“不可复制”两种情形下,原告作品市场面临的威胁有何差异?而原告的诉状和证据均未涉及这一问题。

      由于合理使用是积极抗辩事由,且Meta提出了简易判决动议,Meta负有举证证明其复制行为不会对原告作品市场造成实质性损害的责任。Meta并未最终证明其复制行为未来不会造成损害——这可能是因为其复制行为确实使 Llama 更有能力生成大量稀释原告作品市场的内容。但当被告提交证据证明不存在市场损害,“而原告未能提交实证证据予以反驳时,对第四项因素的判断结果应作出有利于被告的认定”(William F. Patry, Patry on Fair Use § 6:13 (May 2025 ed.);Seltzer v. Green Day, Inc., 725 F.3d 1170, 1179 (9th Cir. 2013);Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146, 1168 (9th Cir. 2007))。本案正属此种情形:Meta提交了其复制行为未造成市场损害的证据,而原告未提交任何相反实证证据——既无证据证明复制行为已造成市场损害,也无证据证明其可能在未来造成损害。原告仅提出了猜测,而猜测不足以提出真实事实争议并推翻简易判决(Anheuser-Busch, Inc. v. Natural Beverage Distributors, 69 F.3d 337, 345 (9th Cir. 1995))。

      原告主张其无需提交实证证据,因为市场损害可通过推定得出,为此他们援引了Hachette Book Group, Inc.诉Internet Archive案以支持他们的主张——在该案中,尽管原告未提供“实证数据”证明损害存在且二次使用人提交了无损害的专家证词,第二巡回上诉法院仍推定存在市场损害,理由是若此类使用广泛发生,造成损害“显而易见”(Hachette Book Group, Inc. v. Internet Archive, 115 F.4th 163, 192-93 (2d Cir. 2024))。但在Hachette案中,二次使用人运营的数据库允许互联网用户“免费下载原告书籍的相同副本”(Id.at 194),故其二次使用提供了与原作直接“竞争的替代品”(Id.at 195)。

      虽然阿歇特案中的市场损害推定具有合理性,但本案不适用该推定。首先,最高法院曾指出,“市场损害推定……不适用于超出商业性单纯复制的案件”(Campbell, 510 U.S. at 591)。Hachette案中的二次使用本质上是“单纯复制”,而本案中Meta的使用具有高度转换性,目的远不止于此。其次,与阿歇特案不同,Meta的使用不允许用户获取原告书籍的实质性内容,故无法显而易见地通过直接替代造成损害;也无法显而易见地通过Llama生成大量竞争书籍损害书籍销售市场。Llama可能(甚至很可能)损害书籍销售市场,但这一结论需要推定以下事实:Llama(而非其他大型语言模型)能够且将会被用于创作此类书籍;消费者会购买这些书籍而非人类作者的作品;消费者会购买这些书籍而非原告的作品;且Llama因使用受版权保护材料训练而在创作此类书籍方面具有显著优势。而在阿歇特案中,仅需推定读者可能选择免费下载原告书籍而非付费购买——这一推定的逻辑链条短得多,也更明显得多(American Society for Testing & Materials v. Public.Resource.Org, 82 F.4th 1262, 1271-72 (D.C. Cir. 2023))。

      基于现有案卷记录,Meta已成功反驳了原告关于其复制行为造成或威胁造成重大市场损害的敷衍主张。这一结论可能与现实存在显著差异,但这是原告选择提出两项有缺陷的市场损害理论、且未就“使用 Llama 等大型语言模型训练对其作品市场的影响”提交实质证据所导致的必然结果14

(四)

      与第四项因素相关的还有两个问题:

      第一,如前所述,Meta使用影子图书馆是否使这些图书馆或其用户获益。若存在此种获益,则与第四项因素相关——这意味着Meta的复制行为帮助他人无偿获取受版权保护的作品(包括原告的书籍),且无证据表明这些人获取作品是为了合理使用目的。但尽管原告详细讨论了Meta使用影子图书馆的行为,却未主张该行为产生了上述影响,也未主张其除使Meta无偿获取书籍外与第四项因素存在其他关联。在庭审中,原告律师称Meta(及其他同类公司)使用影子图书馆会降低影子图书馆的社会污名化程度,鼓励更多人使用(May 1 Hr’g Tr. at 92-93)。这一主张在整体分析中是否具有意义尚不清楚,但律师承认案卷中无证据证明存在此种情况(Id. at 93-94)15

      第二,Meta复制行为带来的公共利益。双方在这一问题上的论述均未产生实质影响。原告称,认可Meta的行为将鼓励盗版,促使其他大型语言模型公司实施盗版,并“支持和维护”免费提供被盗作品的影子图书馆。但案卷中无证据表明Meta(或其他大型语言模型开发者)正在积极支持或鼓励影子图书馆的广泛使用。至于“鼓励其他大型语言模型开发者使用影子图书馆”的主张,原告再次回避了核心问题——大型语言模型开发者是否应支付费用获取训练用书籍,正是本案所要解决的问题(且显然是需结合具体事实判断、无法一概而论的问题)。Meta则主要论述了大型语言模型的多种实用价值,但与第四项因素最相关的公共利益,是那些“与版权法对新表达创作的关切相关”的利益(Oracle,593 U.S. at 35)。例如,Llama能够帮助用户处理税务问题这一事实,与本案的关联性就不强。尽管如此,Meta使用受版权保护作品作为训练数据,仍可能通过以下方式帮助 Llama创造新表达:提升其辅助用户生成创意文本的能力,或增强其“记忆”功能,从而使其对研发软件的研究者更具实用价值。因此,公共利益考量略微对Meta有利,进一步确认Meta在第四项因素的判定中获胜。

(五)

      与此相关,Meta主张,若禁止其(及其他人工智能开发者)未经付费使用受版权保护的文本作为训练数据,将“严重损害公共利益”。Meta似乎暗示,此类裁决将会让大型语言模型及其他生成式人工智能技术的发展“戛然而止”。但这一主张毫无根据。

      如前文所述,裁决某类复制行为不构成合理使用,并不必然意味着复制者必须立刻停止该行为——而是意味着复制者需获得授权。因此,若使用受版权保护作品训练大型语言模型不构成合理使用,包括Meta在内的大型语言模型开发者无需停止使用受版权保护作品进行训练,仅需向版权持有人支付许可费以获得训练授权即可。

      可以推断出的是,若使用受版权保护作品进行人工智能训练不被视为构成合理使用时,人工智能开发者无疑会找到获取训练用作品授权的方式。Meta称此类授权市场无法或不会形成,这一主张难以令人信服。若书籍确实如Meta所言对大型语言模型训练具有重要价值,那么大型语言模型开发者几乎必然愿意为授权支付费用(事实上,Meta本身也曾愿意支付许可费——只是认为授权谈判在操作上过于困难)。即便单本书籍作为训练数据的价值过低,不足以支持逐本谈判授权,大型语言模型开发者仍可能有意批量获取书籍授权。目前出版商可能尚未持有开展集体授权所需的附属权利,但很难相信他们不会尽快与作者协商获取此类权利,以便与大型语言模型开发者进行大规模授权谈判(除非他们已开始这样做)。尤其在大型语言模型开发者面临“要么获取授权、要么放弃使用受版权保护书籍作为训练数据”的选择时,此类授权市场的形成可能性极高。若开发者选择仅使用公有领域作品而非授权受版权保护作品进行训练,则表明他们并非如所声称的那样迫切需要受版权保护的作品。

      因此,若Meta及其他大型语言模型开发者未经许可使用受版权保护书籍训练模型的行为不构成合理使用,他们无需彻底停止大型语言模型的研发工作,仅需支付许可费或使用不受版权保护的书籍即可。无论哪种情况,大型语言模型企业的发展速度可能会略有放缓,盈利可能也会略有减少,但声称大型语言模型技术发展将因此停滞(或接近停滞)的说法,根本经不起进一步的推敲。

七、结论

      合理使用是一项依赖具体事实的原则,需结合新技术及其潜在影响进行个案考察分析。此前尚无任何案件涉及“既具有高度转换性、又可能严重稀释原作市场”的使用行为,因此也无任何先例直接回答Meta的复制行为是否构成合理使用。这一问题的答案,需通过灵活适用合理使用因素,并结合版权法与合理使用原则的目的(即通过防止复制者创作在市场上替代原作的作品,维护创作动力),对Meta的复制行为进行考量后得出。

      在涉及类似Meta使用行为的案件中,若案卷记录能更充分地证明被告使用行为的市场影响,原告通常有可能胜诉。无论大型语言模型训练的转换性有多强,很难想象以下情形会构成合理使用:使用受版权保护的书籍开发一款可赚取数十亿美元甚至上万亿美元的工具,同时该工具能够生成无数可能严重损害原作品市场的竞争作品。某些案件的原告可能会提出更有力的主张,例如前文所述,某些类型作品,如新闻文章的市场可能更容易受到人工智能输出内容的间接竞争冲击。反之,若案件事实存在细微差异,被告也可能胜诉。例如,使用受版权保护的书籍为非营利目的,如为了国家安全或医学研究而训练大型语言模型,即便存在一定程度的市场稀释,也可能构成合理使用(Oracle,593 U.S. at 32),在Oracle案中“若复制行为不具有商业性质,将对合理使用的认定产生有利影响”。此外,若原告作品不太可能面临来自人工智能生成作品的实质性竞争,原告也可能无法突破合理使用抗辩。

      在本案中,由于Meta对这13名原告作品的使用具有高度转换性,原告需在第四项因素上取得决定性胜利,才能否定合理使用(Perfect 10, 508 F.3d at 1168),若二次使用“具有显著转换性”且第四项因素“对双方均无明显偏向”,则构成合理使用。而要推翻简易判决,原告需就第四项因素提出真实的实质性事实争议。鉴于市场稀释问题在本案语境中的重要性,若原告提交了任何陪审团可据以认定其胜诉的证据,第四项因素的争议就应交由陪审团裁决;甚至原告可能已提交足够有力的证据,在简易判决阶段就赢得合理使用争议的胜利。但原告未就市场稀释问题提交任何实质证据。在无此类证据且Meta已提交相反证据的情况下,第四项因素的认定只能对Meta有利。因此,基于现有案卷记录,Meta有权就“使用原告书籍作为大型语言模型训练数据构成侵权”的主张,以合理使用作为抗辩事由并获得简易判决。

      如前所述,关于原告提出的关于《数字千年版权法》DMCA主张,本院将在另一项裁决中批准Meta的简易判决动议。本院定于2025年7月11日上午10点通过Zoom召开案件管理会议,重点讨论如何处理原告提出的“Meta在种子下载过程中非法发行其受保护作品”的独立主张。

特此判决。


      2025年6月25日


      文斯・沙布里亚(VINCE CHHABRIA)

      美国地区法院法官



注释

1除另有说明外,各方当事人对本节所述事实无争议。

2 根据Meta公司的描述,GitHub是“一个领先的云平台,供程序员存储和分享代码,通常以开源方式进行”;arXiv是“数学、科学与经济学论文的免费在线存档库”;Stack Exchange则是“一个面向编程社区的技术知识问答网站网络”。

3 David Gerwitz, What Is Torrenting?, ZDNET (Aug. 6, 2024), https://www.zdnet.com/article/what-is-torrenting-and-how-does-it-work [https://perma.cc/8PG5- H7UW]. Case 3:23-cv-03417-VC Document 598 Filed 06/25/25 Page 11 of 40.

4 原告方仅基于“Meta未经许可复制了(其)受版权保护的书籍”以及“未经许可的复制行为不构成合理使用”这两项理由提出简易判决动议(Pls. MSJ at vii, 19)。原告方虽曾暗示其动议包含对分发行为的索赔(例如,同动议书第22页指出“Meta的初始复制行为不构成合理使用,因其导致受版权保护材料的传播”),但复制权与分发权是两项独立的权利,必须分别考量(See 17 U.S.C. §106(1), (3); Columbia Pictures Industries, Inc. v. Fun, 710 F.3d 1020, 1034 (9th Cir. 2013)),该案表明“上传与下载受版权保护材料均构成侵权,前者侵害版权人的分发权,后者侵害复制权”。

      如下文所述,Meta实施复制的具体方式(即通过影子图书馆以种子下载方式获取原告书籍)仍与其复制行为是否构成合理使用相关。但Meta被指控的分发行为必须独立处理(see Pls. Ex. 67 at 106:14-108:25, 246:13-248:23, 270:12-16) ,该案说明可通过修改默认设置避免持续吸血下载。即便原告方曾就被指控的分发行为是否构成合理使用提出简易判决动议,现有关于Meta涉嫌分发的记录仍不完整,在当前诉讼阶段就此问题作出简易判决并不妥当(See Order Granting as Modified Meta’s Request for Leave to File a Rebuttal Expert Report, Dkt. No. 499),该案允许Meta在反驳原告简易判决动议的期限后,补充提交关于分发行为的专家报告。

5 关于第四项判断要素(对版权作品潜在市场或价值的影响),文中也详细探讨了此类竞争现象——即AI生成的书籍与原告作品题材相似,但相似程度尚未构成侵权的竞争情形。

6 相比之下,若某大语言模型的设计用途是生成与其训练数据实质性相似的作品,或是创作与原作竞争但未达到实质性相似程度的作品,那么使用受版权保护的作品训练此类模型,其转换性使用程度可能低于训练通用大语言模型。因为这种使用行为的目的和性质在于使大语言模型能够开发替代性作品。即便如此,在此种情况下,训练大语言模型的行为仍可能具备一定程度的转换性——转换性并非非此即彼的二元判断。

7 若认为商业性质属于相关考量因素而主观善意则否,这似乎存在矛盾。毕竟,商业用途同样可能蕴含为公众消费创造新表达的目的。然而,商业性质与主观善意的区别在于:前者关乎二次使用行为本身的性质,而后者主要涉及二次使用者的主观状态。版权法的目标在于激励“有益于公众教育的活动”(Pierre N. Leval, Toward a Fair Use Standard, 103 Harv. L. Rev. 1105, 1126 (1990))。虽然不具有决定性意义,但商业性质之所以相关,是因为非营利性使用(至少在理论上)比营利性使用更可能以造福公众为目的(对比《美国法典》第17编第107条第(1)款(17 U.S.C. § 107(1))(将“商业性质”与“非营利教育目的”并置);索尼案判决书(Sony, 464 U.S. at 448–51, 104 S.Ct. 774.)。相比之下,主观善意关注的是“二次使用者的道德性”——而非“其创作是否属于”有益公众且应受版权法保护的类型(Leval, 103 Harv. L. Rev. At 1126.)。

8 Meta使用影子图书馆的行为显然与原告提出的分发权侵权主张相关。但如前所述,复制权与分发权属于不同的法律问题。因此,即便Meta从影子图书馆进行种子下载的行为确实构成分发,该事实本身并不能决定性判断其复制行为是否构成合理使用。

      此外,若Meta的下载行为实质性地助长了影子图书馆本身的侵权行为,Meta可能需承担帮助侵权责任(Perfect 10, 508 F.3d at 1170–72)。但原告并未提出帮助侵权主张,亦未就此提供任何证据支持。

9 本院驳回原告对这些声明提出的异议,理由是当事人可将作为“合理回应对方抗辩”的声明附于答复简报之后,且本案所涉声明与声明人之前的庭外证词并无矛盾(霍奇斯诉赫兹公司案,Hodges v. Hertz Corp., 351 F. Supp. 3d 1227, 1249 (N.D. Cal. 2018);另见《加州北部地区地方民事诉讼规则》第7-3(c)条(Civ. L.R. 7-3(c))。

10 但Meta的这一主张对其在第四因素上的抗辩存在不利影响。如下文所述,使用受版权保护的书籍训练的大型语言模型,更有可能生成可与这些书籍竞争的作品。

11 正如在谷歌图书案中,法院所指出的,允许用户阅读16%内容绝不构成实质损害的说法不成立,因其工具显示的是“非连续、随机散布”的片段(谷歌图书案,804 F.3d at 222)。若该工具能展示“占全书16%的连贯内容”,问题性质将根本改变(同上,at 223)。即使数量占比小,若属于作品的“核心部分”或具有其他质的重要性,也可能具有实质性(Cf. Harper & Row, 471 U.S. at 565 (quoting Harper & Row, Publishers, Inc. v. Nation Enterprises, 557 F. Supp. 1067, 1072 (S.D.N.Y. 1983)))。

12 需明确的是,此处并非主张作者的版权保护程度应取决于其知名度或受欢迎程度(Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S. 508, 544 & n.19 (2023))。此处旨在说明,不同作品的市场可能因人工智能生成竞争作品的泛滥而受到不同影响(Cariou v. Prince, 714 F.3d 694, 709 (2d Cir. 2013),“普林斯的作品吸引的收藏者群体与卡里乌的作品完全不同”;Andy Warhol Foundation for Visual Arts, Inc. v. Goldsmith, 11 F.4th 26, 48 (2d Cir. 2021),“我们无法认可地区法院隐含的推理逻辑,即沃霍尔作品的市场是‘沃霍尔作品’的市场……但我们认为无需推翻地区法院的整体结论,即两件作品处于不同市场”,该案上诉后维持原判,参见Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S. 508 (2023))。

13 这并不意味着对作者创造力依赖较低的新闻文章或其他作品不应获得版权保护,或更适合用于训练人工智能模型。相反,如第二项因素部分所述,非虚构作品仍受版权保护,因为法律保护作者表达事实的方式(参见Google Books, 804 F.3d at 220)。

14 原告还主张,其作品市场在更狭义层面遭受了损害:若Meta未从影子图书馆下载书籍,就必须购买这些书籍。但如前文所述,即便下载行为是独立的使用,仍需结合其整体目的考量。例如,假设一名研究者为撰写关于影子图书馆的文章,从影子图书馆下载书籍且仅用于研究,该下载行为几乎必然构成合理使用。当然,该示例中的下载者获取书籍的其他途径,远少于Meta。但核心在于,原告所称的“纯粹盗版” 式下载行为,需结合其最终目的看待。由于Meta训练大型语言模型的目的具有高度转换性,原告需在第四项因素上取得决定性胜利才能否定合理使用,而人工智能开发者未单独购买书籍造成的销量损失,并非足以使原告胜诉的市场损害类型。

15 Meta的一名专家证人在其证人证言中作证称,根据Meta对种子下载软件的配置方式,Meta“极有可能” 为BitTorrent网络贡献了“带宽、内容、存储和处理能力”(Pls. MSJ Ex. 67 at 103:3-104:5)。但无证据表明Meta实际采用了可产生上述贡献的设置,也无证据表明其贡献程度。更重要的是,无证据表明Meta向 BitTorrent 网络贡献的计算能力,对其从中下载书籍的影子图书馆提供了帮助(或对原告版权构成其他侵权)。相反,原告参见的资料显示,绝大多数种子下载文件为电影、电视节目、视频游戏和音乐(这些内容虽通常受版权保护,但并非本案争议对象),而书籍占种子下载材料的比例不足 1%(Jacqui Cheng, BitTorrent Census: About 99% of Files Copyright Infringing, Ars Technica (Jan. 29, 2010),网址:https://arstechnica.com/information-technology/2010/01/bittorrent-census-about-99-of-files-copyright-infringing,永久链接:https://perma.cc/KZ7N-R9BN)。








【声明】内容源于网络
0
0
大迈说电商
跨境分享台 | 每日分享行业动态
内容 45790
粉丝 1
大迈说电商 跨境分享台 | 每日分享行业动态
总阅读246.3k
粉丝1
内容45.8k