

欧盟发布人工智能训练数据模板

中国保护知识产权网

2025-09-17

导读：然而，权利持有人的实际价值，特别是在许可版权作品的背景下，仍然难以确定。

从2025年8月起，欧盟委员会将依据《人工智能法案》第53条，强制要求通用人工智能模型提供者公开其训练数据的内容摘要，以增强透明度并保障权利人在版权等方面的合法权益。2025年7月24日，欧盟发布正式的训练数据披露模板，明确了摘要的结构与内容要求，标志着监管机构在AI训练数据记录方面迈出关键一步。然而，该机制对权利持有人在版权许可方面的实际价值仍不明确。

模板涵盖公开数据集、私人数据集、网络抓取内容、用户数据及合成数据等多种类型，要求提供者说明数据来源、性质及总体描述，但不要求披露具体训练数据或作品细节，强调宏观透明而非微观追溯。

平衡透明度与商业秘密

欧盟委员会强调，在确保商业机密不受损害的前提下，应提供足够信息以便相关方行使法律权利。根据数据来源不同，披露程度可有所差异。例如，未获商业授权的私人数据或第三方数据，仅在公众已知或一般性描述的情况下才需列出，允许企业在敏感信息上保留细节。

同时，鼓励企业提供超出最低标准的自愿性补充信息，或建立“基于请求”的沟通机制，供权利人查询其内容是否被纳入训练数据。但此类机制为非强制，企业无法律义务回应或处理此类请求。

版权和许可挑战

根据《数字化单一市场版权指令》（CDSM）第4条，权利人有权选择禁止其作品用于文本与数据挖掘。然而，当前模板因不包含具体使用数据的明细，使权利人难以判断自身内容是否已被使用。

尽管模板要求说明是否遵循CDSM退出机制及相关识别程序，但缺乏验证手段，也无法确认过滤措施是否有效排除受保护内容。此外，由于摘要不具备个案指向性，难以支持权利人就特定作品开展许可谈判，客观上更有利于大型出版商或集体管理组织达成批量授权协议，延续了AI企业倾向与内容聚合方合作的模式。

人工智能办公室的监督范围和跨司法管辖区的影响

欧盟人工智能办公室将负责核查模板填写的合规性，但不会逐一审查具体训练内容，也不介入个体版权争议裁决。相关纠纷仍由成员国法律管辖，举证责任归于权利持有人，凸显训练数据摘要在维权实践中的工具局限性。

值得注意的是，强制披露训练数据来源可能使AI企业在其他司法管辖区（如美国）面临额外法律风险，尤其是在“合理使用”原则尚存争议的背景下。这或导致部分开发者推迟或放弃在欧盟推出AI模型，权衡监管合规成本与潜在诉讼及声誉风险。

总体而言，该模板是全球首个针对AI训练数据透明度的强制性制度设计，具有开创意义。尽管在实施层面仍存在空白，尤其在支持个体权利行使和跨境合规方面有待完善，但其框架为未来监管提供了重要参考。最终成效将取决于执行力度、企业信息披露意愿以及司法实践的发展。

（编译自www.mondaq.com）

翻译：刘鹏　校对：王丹

【声明】内容源于网络

中国保护知识产权网

各类跨境出海行业相关资讯

内容 5072

粉丝 0

中国保护知识产权网各类跨境出海行业相关资讯

总阅读12.9k

粉丝0

内容5.1k