学术 | 民法视域下大型语言模型的法律风险及治理策略- 大数跨境

广信君达律师事务所

2025-02-14

导读：本文从民法学的视角出发，对大型语言模型的技术背景及其引发的法律问题展开系统探讨，并尝试提出应对建议。

摘要：大型语言模型（Large Language Models，简称LLMs）是一种使用大量文本数据训练的深度学习模型，旨在生成和理解自然语言文本‌，其推动了生成式人工智能技术的迅猛发展，被广泛应用于信息处理、情感交互、逻辑推理和劳动替代等众多领域，给社会生活和业务流程带来了极为深刻的变革。然而，随着生成式人工智能技术的迅速扩展，也引发了诸如信息内容安全、数据与算法安全、侵权和诚信等方面的法律风险。本文从民法学的视角出发，对大型语言模型的技术背景及其引发的法律问题展开系统探讨，并尝试提出应对建议。

关键词：大型语言模型生成式人工智能法律风险开源AI

一、大型语言模型的技术背景与功能定位

（一）技术革命与法律规制的挑战

深度学习与自然语言处理技术的飞速发展，催生了以Transformer算法为核心的大型语言模型。这些模型标志着自然语言处理从传统方法向深度学习框架的根本转变，并赋予了文本生成与理解前所未有的能力。自2017年Transformer算法问世以来，诸如BERT和ChatGPT等模型逐步确立了大型语言模型的技术基石，为社会带来技术革新的同时，也对现有法律体系提出了严峻挑战。

1.多头注意力机制的核心地位

Transformer算法以其多头注意力机制为核心，通过Query、Key、Value三组向量完成信息动态聚合，支持高效并行计算并能够处理长文本。这种技术突破显著提升了模型的训练效率与输出质量。如GPT-4以其1750亿参数规模展示了强大的推理与生成能力。随着模型规模的指数级扩展，其算法的可解释性和透明性也面临重大挑战，亟须法律规制予以应对。

2.技术背景中的法律关联性

从民法的维度审视，技术革命所引发的权利配置问题是极为突出且复杂的。技术赋予了数据新的价值，使其具备了近似于传统财产权所具有的经济意义，这就涉及数据产权的民法界定，数据的归属权、使用权、收益权等权利如何在这些新型的数据相关主体之间分配。《中华人民共和国民法典》（下称“民法典”）第三条明确规定：“民事主体的人身权利、财产权利以及其他合法权益受到法律保护，任何组织或者个人不得侵犯。”数据作为一种新兴的资源，其相关的合法权益应当受到民法的保护。技术的不确定性极大地增加了法律规制的复杂性。算法决策具有高度的隐蔽性，这种隐蔽性可能影响到侵权行为的认定。在何种情况下算法决策可以被认定为侵权行为，以及是否应该在民法典中专门设立针对算法决策侵权的条款，都需要从理论和实践的层面进行更为深入的研讨。

（二）功能定位：知识整合与权利关系重构

1.知识整合与公共服务

大型语言模型具有强大的知识整合功能，能够广泛应用于法律检索、自动生成法律文本等领域。例如，它可以在短时间内快速整合大量的法律条文和案例，为法律实务工作者提供高效的支持，但这种高效生成的内容可能会由于数据偏差而导致法律适用的偏离。如果模型依据存在偏差的数据去生成法律意见，可能使案件的处理结果不符合法律规定的公正标准。根据民法典第七条规定：“民事主体从事民事活动，应当遵循诚信原则，秉持诚实，恪守承诺。”若模型开发者未尽审慎排查义务，可能需对由此引发的偏差后果承担相应责任。

2.权利关系的重构

技术的发展不仅改变了数据与使用者之间的关系，对权利的归属和保护也提出了新的要求。在劳动替代方面，模型在降低劳动成本的同时，引发了劳动权与技术发展的平衡问题。当模型应用于某个行业导致某类职业大量失业时，是否应构建法律上的补偿机制值得探讨。依据民法的损害填补原则，若劳动者因技术应用丧失就业机会，造成经济与生活损失，法律应提供合理的补偿机制。这不仅涉及劳动法中的权利保护，也要求民法对技术应用所致损害提供填补路径。

二、大型语言模型的主要法律风险

（一）信息内容安全风险

1. 虚假信息的生成

大型语言模型生成的信息具有一定的随机性，这可能导致虚假内容的广泛传播。根据民法典第一百四十八条规定：“一方以欺诈手段，使对方在违背真实意思的情况下实施的民事法律行为，受欺诈方有权请求人民法院或者仲裁机构予以撤销。”当这种虚假信息涉及商业领域时，则可能构成欺诈，从而使相关的民事法律行为得以撤销。在涉及公共利益时，也可能引发合同争议或者其他侵权行为。在公共卫生事件中，如果模型生成并传播虚假的防疫信息，可能会扰乱社会秩序，造成公众恐慌，这可能涉及民法典第一千一百六十五条规定的侵权行为，即行为人因过错侵害他人民事权益造成损害的，应当承担侵权责任。

2. 法律规制的不足

现行法律对虚假信息的规制大多集中在传播者的责任上，而对于信息生成者（如模型开发者）的责任认定尚不清晰明确。从民法的角度出发，可以考虑将信息生成的行为归类为“危险活动”，并适用无过错责任原则。无过错责任原则在民法典侵权责任编有多处体现，如高度危险责任等。这样规定的目的在于，在特定的危险活动中，即使行为人没有过错，只要其行为与损害结果之间存在因果关系，就应当承担侵权责任，从而更好地保护受害人的权益。

（二）数据与算法安全风险

1. 数据权利的冲突

大型语言模型的训练依赖于海量数据，这些数据的获取过程往往涉及个人隐私与商业秘密的保护。民法典第一千零三十二条规定：“自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。”以及《中华人民共和国反不正当竞争法》第九条规定了商业秘密保护的相应内容。如果在未经授权的情况下使用他人的数据，就可能触发民法中关于隐私权和商业秘密的侵权责任。某些数据源于挖掘企业和获取用户数据，这一过程如果没有遵循法定的授权程序，就可能侵犯用户的隐私权或企业的商业秘密。

2. 算法透明性与归责机制

算法的高度复杂性使得其输出结果难以被准确追踪和解释，这给法律归责带来了巨大挑战。民法中的因果关系原则是确定侵权责任的重要依据，然而在算法生成的复杂背景下，如何适用因果关系原则需要通过司法解释和更多的案例逐步予以明确。如一个由算法推荐引发的商品侵权案件中，如何确定算法推荐与消费者购买侵权商品之间的因果关系是一个复杂的问题。

3. 训练语料收集的法律风险

大型语言模型的训练语料来源于海量数据，这些数据的搜集和整合过程可能侵犯他人的合法权益。未经授权使用包含知识产权的数据可能构成著作权侵权。根据《中华人民共和国著作权法》第四十七条规定，未经著作权人许可，复制、发行、表演、放映、广播、汇编、通过信息网络向公众传播其作品的，应当根据情况，承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。未经授权使用他人享有著作权的文学作品作为训练语料就可能侵犯著作权人的复制权、信息网络传播权等权利。在数据搜集过程中可能收集到用户的个人信息或企业的商业信息，若未经授权则可能触发《中华人民共和国个人信息保护法》和《中华人民共和国数据安全法》中关于信息安全的法律责任。例如三星半导体部门因使用ChatGPT导致内部商业信息泄露的事件，就是企业数据未被合法使用的典型案例。

4. 开源与数据合法性

随着AI技术的发展，开源与闭源之争对训练语料的合法性提出了新的挑战。例如Meta公司开源的Llama 2模型虽具备部分开源特性，但其许可协议在某些方面与传统开源定义存在矛盾。根据欧盟《人工智能法案》，其对开源AI有一定的法律豁免规定。在我国的法律框架内，应结合类似欧盟的先进经验，进一步明确开源AI的合法性标准，以适应AI技术的快速发展。

（三）侵权风险

1. 知识产权侵权

模型生成内容的原创性与现有作品的相似性可能会引发知识产权纠纷。从民法角度看，应引入“实质性相似”的判断标准，这一标准在我国著作权司法实践中已经有一定的应用。结合算法透明度要求，明确侵权的责任主体。如果算法的设计或者训练过程存在故意抄袭他人作品的情况，那么算法的开发者和使用者都可能被认定为侵权责任的主体。训练语料的合法性标准需要进一步明确，避免因数据来源问题导致的潜在版权纠纷。

2. 人格权侵害

虚假或恶意信息的生成可能侵害个人的名誉权、隐私权等人格权。民法典第一千零二十四条规定：“民事主体享有名誉权。任何组织或者个人不得以侮辱、诽谤等方式侵害他人的名誉权。”若模型生成的信息对某人声誉造成损害，受害人可以依据民法典提起侵权之诉。在这类案件中，需明确开发者、运营商与用户之间的责任划分。开发者如果对模型生成的内容存在过失审查不严的情况，可能需要承担相应的责任；运营商如果明知存在侵权内容而不采取措施制止，则可能承担连带责任；用户如果故意利用模型的漏洞生成侵权内容，则应承担主要的侵权责任。

（四）诚信风险

1. 学术与职业诚信

模型的广泛使用可能导致学术与职业领域的诚信危机。根据民法典第七条规定的诚信原则，学生使用模型生成的内容完成作业，这种行为违背了学术研究中的诚信要求，类似于欺诈行为；求职者利用模型伪造简历信息，在求职过程中也是一种欺诈行为，损害了雇主基于真实信息做出招聘决策的信赖利益。

2. 社会诚信体系的冲击

在公共领域，若模型生成的信息被滥用于伪造政府公告或其他重要文件，这可能对社会诚信体系造成严重的破坏。民法典第八条规定：“民事主体从事民事活动，不得违反法律，不得违背公序良俗。”这种行为违反了公序良俗原则，应加强法律法规与技术手段的结合，建立预警和责任追究机制。

三、法律治理的挑战

（一）算法透明性与法律监督

1.商业利益与公众利益的平衡

算法的透明性要求与商业秘密的保护往往存在冲突。某些企业在算法研发过程中投入了大量的资源，算法的透明化可能会导致商业秘密的泄露。需要在保护开发者权益和满足公众对公平与正义的要求之间找到平衡，可以考虑通过建立分级披露制度，在不损害企业核心商业秘密的前提下，尽可能地公开算法的相关信息。

2.第三方审计与监管

第三方审计机制可以弥合算法透明性和企业秘密保护之间的矛盾。由独立的第三方机构定期对算法的公平性与合法性进行审查，确保企业在遵守商业秘密保护的同时，能够满足社会对公正的要求。根据民法典中合同信赖原则，可在算法服务合同中加入第三方审计条款，规范企业行为，提升技术应用的合规性与公信力。

（二）国际法律合作

1.国际规则的协调

人工智能技术的跨国性使得法律治理需要在国际范围内进行协调与统一。以欧盟《人工智能法案》为代表的法规，通过基于风险的分级管理模式，明确了高风险和不可接受风险AI系统的适用规则和豁免条件。该法案对AI系统风险的精细划分，为全球法律体系的构建提供了有益经验。中国可以借鉴这些先进做法，通过与本国法律对接，构建适合自身国情的AI治理框架，同时积极参与国际规则制定和修订。在跨境数据流动、AI伦理规范及技术风险监管等方面，推动多边合作协议的达成。

2.开源AI法律豁免的具体规定

欧盟《人工智能法案》对开源AI系统的法律豁免作出了明确规定。根据AI系统的类型及其应用场景，法案细化了豁免范围。第二条第十二项规定，免费且开源发布的AI系统原则上无需遵守法案中的全部义务，但高风险、不可接受风险及特定类型的AI系统除外。高风险AI系统包括作为安全部件或产品的AI系统，以及应用于医疗、交通等关键领域的AI技术。即便是开源，这些系统仍需符合透明度、数据质量和人工监督等严格要求。此外，不可接受风险类AI系统（如利用潜意识手段操控用户行为）无论是否开源均被禁止。《人工智能法案》第五十条对开源AI的透明度义务作出了具体规定，要求AI提供者确保用户明确知晓他们正在与AI系统互动，并对生成的合成内容进行标注。此类措施旨在平衡技术创新与法律合规，促进AI技术在全球范围内的健康发展。

3.我国关于开源AI法律豁免的探索

我国在开源AI法律豁免方面也有一些有益的探索。2024年4月16日发布的《人工智能法示范法2.0（专家建议稿）》中，规定了免费且开源提供人工智能研发所需部分代码模块的法律豁免。根据该法案，免费且开源提供人工智能的个人、组织能证明已建立符合国家标准的人工智能合规治理体系并采取相应安全治理措施的，可以减轻或免于承担法律责任。

人工智能开源技术对于技术创新具有至关重要的作用。尽管全球范围内普遍对开源人工智能持支持态度，但同时存在如何在技术进步与安全问题之间取得平衡的挑战。企业在进行人工智能开源时，仍需遵守包括但不限于功能披露、安全性保障以及版权法规等要求。随着法律体系的日益完备，人工智能开源技术将持续推动全球技术进步，然而法律框架的持续完善仍为关键所在。

（三）合法性标准的构建

1.明确数据收集的合规要求

根据我国颁布的《生成式人工智能服务管理暂行办法》，技术开发者与服务提供者之责任已得到明确界定，其在数据采集过程中必须遵循透明与公开的原则，并确保数据来源的合法性。然而尚需进一步规定数据采集的具体程序与标准，例如发布数据采集合法性声明、用户同意的获取方式等。

2.完善风险防范体系

基于现行法律体系，通过精细化数据保护与知识产权保护相关法规，构建具备操作性的合法性标准。应明确技术平台运营商的责任，强化在数据存储、传输及应用环节对用户个人隐私信息及企业数据的保护力度。

3.针对开源AI的灵活性立法

针对开源人工智能技术在开放性及应用模式上的多元性，参考欧盟《人工智能法案》中对免费开源人工智能的豁免条款，通过动态调整政策与分级管理策略，在促进创新的同时，实现对风险的有效管控。

四、应对法律风险的路径

（一）立法完善与动态调整

1.建立专门法律框架

由于大型语言模型的复杂性与多样性，仅依靠现有法律框架难以全面应对其带来的问题。笔者建议制定“大型语言模型管理条例”，条例应涵盖数据保护、侵权责任认定、算法透明性、用户权益保障等多方面内容，形成完整的法律规制体系。通过这种专门立法，能够更有针对性地应对技术应用中的法律风险。

2.动态调整与试点政策

针对技术发展的不确定性，采用试点政策测试新法律的适用性，逐步形成稳定的法律框架。可以选择部分有代表性的城市或行业进行试点，在试点过程中收集数据和反馈意见，以便对法律进行优化。这种立法与调整并行的模式，能够在保护法律稳定性的同时，增强法律的适应性。

（二）技术与法律的深度结合

1.推动算法解释性研究

法律判断对算法透明性的要求日益提升，可解释性算法的研究因此成为重要课题。通过提升算法可解释性，使法律从业者能够直观理解算法决策过程，为司法实践提供技术支持。例如，可研发基于路径分析的算法可视化工具，帮助法官评估模型输出的逻辑合理性。

2.行业自律与共治机制

在技术迅猛发展的背景下，行业自律与法律规制的融合成为治理的关键方向。行业协会能够制定伦理准则与行为规范，与政府协同促进大型语言模型技术的健康进步。通过构建技术伦理委员会，对开发与应用过程中的风险行为进行规范。

（三）多方协同的治理机制

1.政府与行业的深度合作

技术治理的实现需仰赖政府与行业的协同合作。政府可与行业协会携手制定“大型语言模型技术应用伦理准则”，明确界定模型开发与应用的底线要求。通过构建技术伦理委员会，对高风险技术应用进行全方位评估，确保其与社会公共利益相符。

2.跨部门协同监管框架

针对大型语言模型所涉及的复杂法律风险问题，建议构建一个跨部门的协同监管框架。科技部门承担技术安全与合规性审查的职责，司法部门提供法律解释及判例指导，而市场监管部门则负责监督技术产品的商业应用。通过上述部门的共同努力，可以构建一个系统化的监管体系。

（四）国际合作与规则对接

1.推动全球法律标准的制定

在当前全球化背景下，大型语言模型的法律治理问题亟须跨越国界进行深入探讨。我国宜借鉴欧盟所采用的分级管理模式，积极倡导并推动建立统一的全球法律标准。例如，针对高风险人工智能系统的透明度和合规性要求，可以作为全球范围内达成共识的关键领域，进而促进国际治理的协同效应。

2.建立国际合作平台

笔者建议构建国际人工智能治理合作平台，集中关注技术标准、法律实践、伦理规范等关键议题，以促进各国间的经验交流和技术协作。借助此类平台化的治理机制，不仅能够提高全球法律治理的效能，同时亦能加强我国在国际人工智能领域的领导力。

结语

随着大型语言模型的蓬勃发展，社会进步获得了技术上的推动力，但同时也催生了一系列复杂的法律挑战。从民法学的角度审视，需在权利与义务的分配、侵权责任的明确划分以及法律规范的进一步完善上进行深入而全面的研究。通过构建一个动态且具有包容性的法律框架，在促进技术进步的同时，保障社会公平正义的实现。

参考文献

[1]刘艳红：《生成式人工智能的三大安全风险及法律规制—以 Chatgpt为例》，《东方法学》2023年第4期，第41页。

[2]王迁：《Chatgpt为例生成的内容受著作权法保护吗？》，《探索与争鸣》2023年第3期，第17-18页。

[3]苏宇：《算法规制的谱系》，《中国法学》2020年第3期，第190-181页。

[4]苏宇：《大型语言模型的法律风险与治理路径》，法律科学（西北政法大学学报），2024年第1期，第76-88页。

[5]王璐璐：《机器学习训练数据集的成员推理综述》，网络空间安全，2019年第10期，第2页。

[6]钟祥铭、方兴东、顾烨烨：《ChatGPT的治理挑战与对策研究－智能传播的“科林格里奇困境”与突破路径》，传媒观察， 2023年第3期，第27页。

[7]张欣：《生成式人工智能的算法治理挑战与治理型监管》，现代法学， 2023年第3期，第112页。

[8]Carlini, N., Tramer, F. et al. Extracting Training Data from Large Language Models. 30th USENIX Security Symposium, 2020.

[9]Vaswani, A., Shazeer, N., et al. Attention is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017.