

熊文聪丨AI时代数据保护的应然边界

知产前沿

2025-12-18

导读：第五届知产前沿人工智能论坛 IFAF2025

在人工智能快速发展与全球技术竞争加剧的大背景下，围绕人工智能的知识产权保护日益成为产业关注焦点。2025年12月12日，由YIP Events & 知产前沿新媒体举办的第五届知产前沿人工智能论坛在上海静安铂尔曼酒店顺利闭幕。本次论坛以“AI技术驱动下的知识产权及合规挑战”为主题，围绕生成式人工智能技术在专利申请、数据保护、企业合规和著作权保护中的关键问题展开交流，并探讨 AI 技术对知识产权制度的冲击及人工智能知识产权全球政策动态等议题，为人工智能领域的知识产权与法务从业者提供学习和合作平台，推动我国人工智能产业健康发展。

12月12日下午，中央民族大学、中国法学会知识产权法学研究会理事熊文聪副教授就“AI时代数据保护的应然边界”这一主题发表演讲。他以一起数据纠纷案为切入点，深入剖析了当前司法实践存在的问题，主张回归著作权法框架解决数据争议，并提出了诠释AI数据利用的“绿叶理论”。

一

AI时代的数据保护：厦门中院首案

案情简介：

本案原告通过自主开展市场调研、采集行业信息，并运用其研发的人工智能算法进行整合处理，最终形成了一套有色金属现货价格数据体系。该数据产品在业内具有一定的认可度与市场影响力。

各被告则共同运营某信息服务平台，通过移动应用程序、微信小程序等渠道，向用户提供与原告数据高度相似或趋势基本一致的金属价格信息。原告认为，被告未经许可使用其经加工整理的数据内容，实质性替代了自身提供的服务，构成了不正当竞争行为，故诉至法院，请求判令被告停止侵权、消除影响，并赔偿经济损失1800余万元及维权合理开支21万元。

裁判结果：

本案一审由厦门市中级人民法院审理。法院认定被告行为构成不正当竞争，判决其停止侵权、消除影响，并将原告诉请的经济损失赔偿额从一千余万元调整为两百余万元，同时判令承担合理维权开支十二万元。其中，欧某公司需对部分赔偿承担连带责任。一审判决后，双方当事人均不服，向福建省高级人民法院提起上诉。福建高院经审理，最终裁定驳回双方上诉，维持原判。至此，该判决已发生法律效力。

裁判要旨：

1.数据性质：从公开信息到竞争性资产

法院首先界定了涉案数据的法律性质。有色金属的原始价格数据本身属于公开的市场信息，不具有专有性或竞争性。然而，原告通过其特有的方法论，对分散、单一的原始数据进行了创造性的汇集、筛选、整理与加工，并融入了基于算法形成的价格预测体系。这一过程所产出的数据集合，已非单纯的原始信息罗列，而成为具有竞争性的商业资产。对此类投入了智力与资源的数据成果予以保护，是鼓励数据产业健康采集与加工的必要条件。因此，虽然单一原始数据不归属于原告，但经过深度加工形成的整体数据集合，原告享有相应的财产性权益。

2.“额头汗水”原则的适用

法院采纳了知识产权领域中“额头汗水”原则。其认为，原告作为数据的合法持有与经营者，在数据的收集、整理与加工过程中投入了实质性的劳动、技术与资金。即使该数据集合可能无法构成受《著作权法》保护的“作品”，但基于其付出的显著劳动贡献以及该数据所蕴含的财产价值，所产生的权益应当归属于数据的加工处理者。这一判断体现了对市场主体投资与劳动成果的尊重。

3.实质性替代与竞争秩序损害

在侵权认定方面，法院比对认为被告提供的数据与原告数据存在高度近似性，甚至在原告数据出现个别偶然错误时，被告数据亦出现相同错误。据此，法院合理推定被告直接接触并挪用了原告的数据成果。被告的此种“简单搬运”行为，并未增加新的价值或有利于消费者福祉，反而实质性替代了原告提供的市场服务，不当攫取了原告的劳动成果与商业机会，扰乱了数据行业的公平竞争秩序，故构成不正当竞争。

二

数据是什么？

基于对这一典型案例的剖析，熊文聪展开了对数据保护基础性问题的法理思辨。首当其冲的问题是：在法律保护的语境下，“数据”的本质是什么？

以一张显示“数据加载中”提示的手机截屏为例，熊文聪引导听众思考：此处加载的“数据”实质是什么？直观来看是摄影师新拍摄并上传的照片。那么这些照片本身不就是受《著作权法》保护的摄影作品吗？如果“数据”不是指这些作品本身，那么它还能指代什么？很可能是将这些照片按照特定顺序编排后形成的集合。

所谓受保护的“数据”其形态通常可归结为两类：要么是构成单元的单个作品或信息项本身；要么是对这些单元进行独创性选择或编排后形成的整体结构，即汇编作品。

三

何谓“作品”？

熊文聪进一步阐释了“作品”的本质。以《红楼梦》为例指出，该作品虽由78万余字组成，但曹雪芹并未创造其中任何一个汉字或通用词汇——这些均属于公有领域元素。真正的作品并非这些文字本身，而是文字之间独特的选择、编排、取舍与组合关系。作品的本质在于其具有独创性的表达结构，而非构成它的基础材料。

将这一逻辑延伸至数据领域：正如《红楼梦》的价值在于对公有领域文字的创造性编排，原告的数据集合，其核心同样不在于“创造”了原始价格数据，而在于对公有领域的、分散的原始信息进行了具有独创性的选择、汇编与呈现。因此，此类具备独创性编排的数据集合，实质上可归属于《著作权法》中的汇编作品范畴。

四

为什么不用著作权调整这一问题？

那么，为什么不能运用著作权法来调整此类数据保护问题呢？熊文聪指出，或许可以从一个根本性的认识误区中找到答案：我们往往对"作品"这一概念抱有过分文学化和浪漫主义的理解。

传统上，人们倾向于将数据收集、整理和编排视为一种纯粹的"汗水劳动"，而非创造性的智力活动。我们认为数据的处理者不像曹雪芹那样在书房中从事艺术创作，他们似乎并未倾注个人情感或独特思想，仅仅是付出了机械性的劳动。

然而，这种理解忽略了一个基本事实：著作权法本质上是一套财产规则和市场规则。当作品进入法律领域时，它的本质已经转变为一种非物质性的商品。它保护的不仅是作者的个人表达，更重要的是保护具有市场价值的独创性智力成果。

若从经济学视角来看待作品，将其视为一种具有经济价值的非物质商品，那么原告通过创造性编排形成的有色金属价格数据集合，同样具有明确的市场价值和经济属性。

著作权法所保护的作品，与具有独创性的数据集合，在价值内核上具有同质性。无论是小说这类文字作品，还是对数据元素进行的独创性汇编，其本质都是对既有元素进行独创性选择、编排而形成的智力成果。二者在“作为独创性表达的结构”这一法律属性上并无本质区别。

在我国《著作权法》体例中，关于汇编作品的规定并未被列入该法第三条所明确列举的作品类型之中。这表明“汇编作品”这一概念并非一种与文字作品、音乐作品、电影作品等并列的、基于其外在表现形式而划分的独立作品类别，而是在处理汇编者和被汇编内容的创作者或所有者之间的权利归属问题。

五

“反法保护”观点与回应（1）

观点一：著作权法只保护“数据的编排”（即汇编作品），而不保护数据本身，所以只能寻求以“反法”给予保护。

熊文聪指出，该观点其实明晰数据是什么以及什么是著作权法意义上的“作品”。数据和作品的构成机理是一致的，即它们都具有抽象性的一面，能且只能指代“编排”“选择”本身，而不指向被选择、被编排的符号元素。新修订的《著作权法》对作品的外在表现形式和类型做了完全开放的非穷尽性列举，这更为具有独创性的数据作为作品，进而受到著作权保护扫清了最后的法律适用障碍。

观点二：不具有独创性的数据不能获得著作权保护，但不意味着它不能作为某种权益（非“法定权利”）获得“反法”保护，因为即便这类数据不具有独创性，但在收集、整理这类数据时，平台经营者至少付出了一定的财力和体力，故基于“保护投资”之考量，也不应当任由他人未经许可随意抓取。

熊文聪指出，这一观点实则是对立法者价值取向的误读。他进而反问：在中国现行法律体系中，是否存在任何一部法律向企业承诺——只要进行了投资，其投资就必然获得保护、永不亏损、永不破产？

答案显然是否定的。立法机关的立场非常明确：它不可能、也不会向所有市场主体承诺“有投资必有回报、有投入必得保障”。企业必须自主参与市场竞争，自负盈亏，承担包括破产在内的全部商业风险。

数据领域同理，即便某机构投入成本，收集并汇编了所有参会人员的个人信息形成名录，也不能仅凭此项投资，便主张对该个人信息集合拥有可对抗他人的“数据权益”。这实质上是以私权形式不当占有了本属公共领域或涉及他人权益的资源。

因此，立法逻辑是清晰的：第一，法律不保障盲目的投资必然获得市场回报或法律上的垄断地位。第二，法律尤其不会仅因在数据收集上存在投资，便保护该投资行为本身，更不会允许以此为由将公共数据资源据为己有。

六

“反法”与著作权法的关系

由此，熊文聪引出了一个更深层的法理问题，即《反不正当竞争法》与《著作权法》的关系。有一种主流观点认为，反法扮演着著作权法的“兜底”角色，即当某些客体无法受到著作权法保护时，可由反法提供补充保护。

然而，熊文聪认为，“保护”在民法中并非一个绝对的褒义词，也非“越多越好”。因为赋予某一私主体以排他性权利，必然同时为社会公众施加了相应的不作为义务或获取许可的义务。此外，权利保护需要依赖执法与司法系统来实现，这会产生巨大的公共执行成本。

因此，一项权益（包括数据权益）值得被法律保护，其经济上的正当性在于：保护该权益所产生的社会总收益，必须大于因保护而限制公众自由使用、以及社会为此支付的总成本。否则，过度保护将得不偿失。

如果立法者通过著作权法明确不保护不具有独创性的数据（即允许自由使用），却又允许通过反法对其提供实质性保护（即限制使用），这就在立法价值取向上构成了根本性的逻辑冲突。

七

不具有独创性的数据要不要保护？

熊文聪认为，著作权法中的“独创性”门槛本就不高，不应与“文学艺术性”混淆。对于数据集合，法院在判断其独创性时，应充分考量收集、整理过程中所进行的“实质性投入”。只要这种投入最终体现为一种非机械的、存在选择与取舍空间的编排与整理，并且该成果具有市场价值，就足以认定其构成了受著作权法保护的“汇编作品”。这为司法实践提供了一条清晰的判断思路：从关注“是否像创作小说”转向审视“是否进行了有价值的智力编排”。

相反，如果数据的编排、整理方式属于行业惯常表达或常规操作，那么即便投入了大量劳动与资金，该成果也不应获得排他性权利。这并非法律忽视投资，而是立法者清晰的价值取向：产权制度旨在奖赏带来增量价值的创新与研发成果，而非保护任何盲目的投资或简单的重复劳动。法律不鼓励资源浪费，更坚决防止以“额头汗水”为名，对本属公共资源的数据要素进行“圈地运动”，将其据为私有并阻碍社会再利用。

从比较法的角度，熊文聪提到，欧盟曾通过《数据库指令》在著作权体系之外，为所有投入“实质性投资”的数据库创设了一种特殊权利。然而实践证明，这种对不具有独创性数据库的普遍保护是失败的，其也被认为是导致欧盟数据产业活力落后于美国的原因之一。

八

“反法保护”观点与回应（2）

观点三：抓取他人平台数据构成实质性替代，损害了被抓取网站的商业利益和竞争优势，因此构成不正当竞争。

熊文聪认为，该观点实际上还是潜意识地认为所有数据都是受法律保护的；如果数据本身就是公共资源，就意味着可以自由抓取和使用，即便构成实质性替代也不侵权；缺乏产权内核的商业模式或竞争优势，并不是法律所要保护的权益，市场竞争优胜劣汰，食人（竞争对手）肥己是常态，只要没有违背诚信地损害竞争对手受法律保护的权益，即是正当的竞争手段。

观点四：“反法”只提供有限的弱保护和被动的救济，因此符合比例原则，并不会造成严重不公平的后果。

对此观点，实践中可分为五种情形。

第一种情况，本来应该用著作权保护的数据，却适用反法保护，这不是弱保护，而是保护不力、甚至是对积极权能的否定。因为著作权是一种积极财产权，权利人可主动许可、转让；而反法提供的只是一种消极的、事后的侵权救济，无法进行积极的许可授权。这相当于剥夺了权利人本应享有的核心财产权能。

第二种情况，本来可以著作权法中的合理使用提出不侵权抗辩，但却因反不正当竞争法缺乏此类内置的利益平衡规则。若以反法保护数据，将导致使用者无法以“合理使用”进行抗辩，过度限制了数据的使用自由，损害公共利益。

第三种情况，本来不应该保护的公共数据，却适用反法保护，这也不是弱保护，而是不当保护，会严重损害技术创新和公共利益。

第四种情况，纯粹抓取用户个人信息或创作内容，且已经征得用户同意，该数据所在平台经营者并不享有排他性权益；

第五种情况，反法的适用以存在竞争关系为前提。若数据抓取者利用数据开发了与原始提供者完全不同的新产品或商业模式，双方并无直接竞争，此时适用反法进行规制，便超越了该法固有的构成要件，缺乏法律依据。

九

为什么抓取海量数据用于训练AI通常不侵权？

理由一：AIGC与被抓取的原数据不构成实质性相似。AI往往只是模仿、借鉴被用于训练、学习的在先作品（数据）的“风格”，而在具体外在表达上往往不是直接挪用、照搬或复制。

理由二：抽象的、通用化的“思想”不受版权保护。

理由三：抓取海量在先作品和数据作为语料用于训练AI，往往构成合理使用，不需要事先获得许可，也不需要付费。

十

和谐统一：不侵权也不赋权

熊文聪提出“绿叶理论”，形象地阐释了AI在数据生态中应处的理想角色。

他比喻道，自然界的绿叶从空气中吸收二氧化碳，通过光合作用释放出氧气。在这一过程中，绿叶吸收二氧化碳时，无需获得任何“授权”；而当它释放出氧气时，也不会主张对氧气的“权利”。这是一个自由、贡献与再生的和谐循环。

同理，AI就如同这片“绿叶”。它在训练阶段抓取和利用海量的现有数据，可视作一种无需事先许可的“吸收”过程。随后，AI通过算法“消化”这些数据，生成全新的、具有价值的洞察、内容或服务，这相当于其“释放氧气”的贡献环节。

“绿叶理论”的核心寓意在于倡导一种鼓励流通、促进再生、贡献共享的数据治理观。AI不应被简单视为数据的“掠夺者”或新的“权利主张者”，而应被看作是人类设计的、能够促进知识循环与增值的良性生态节点。我们应当鼓励AI像绿叶那样，在自由吸收数据养分的同时，为社会产出新的价值，将我们的信息世界营造成一片生机勃勃、持续进化的“森林”。