Z计划支持大模型创业

2025-02-25

导读：有关数据筛选、清洗与标注的合规建议。

「Z计划」 是智谱 AI 面向未上市初创企业与优秀独立开发者/团队，提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球，持续招募中！🐋（点击报名）「Z基金」是智谱联合生态伙伴设立的大模型生态投资基金，侧重早期，管理规模 15 亿元人民币。

数据是推动大模型技术发展的关键要素。随着大模型相关应用商业化进程的加速，如何合法、合规地使用训练数据 [1] 已成为创业者不容忽视的问题。

近年来，我国相继出台《生成式人工智能服务管理暂行办法》（后文简称《办法》）、《生成式人工智能服务安全基本要求》、《生成式人工智能预训练和优化训练数据安全规范（征求意见稿）》等规范性文件，从数据来源、内容审核、安全保护等多个维度对提出了严格要求。

作为大模型领域的创业者，应当如何在数据获取、清洗、标注等环节，规避法律风险，确保合规操作？为解答这一问题，Z 计划摘选了《 Z 计划｜大模型创业者手册-法务与产品合规篇》中的相关内容。在本文中，我们着重探讨了有关境外数据和开源数据使用的关键风险点和合规建议，并提供了数据安全评估的方法。

《大模型创业者手册》是由智谱 Z 计划 & Z 基金携手众多合作伙推出的创业实操指南，旨在帮助创业者从 0 到 1 启动 AI 大模型创业。手册采取理论结合实践案例的形式呈现，主要覆盖大模型产品与商业模式、营销与增长、法务与合规等关键内容。

目前《大模型创业者手册-法务与产品合规篇》已正式发布，如需阅读全文可以扫码获取。

获取手册全文👆或点击【阅读原文】

#1.

境外数据获取：风险与合规建议

1.1 法律风险

在现有的大模型产业生态中，跨境数据的获取为模型的全球适用性提供了关键支撑。然而，面对各国日益严格的数据保护法规和数据主权要求，企业在获取和使用境外数据时需要谨慎行事，权衡效率与合规。通常，企业往往通过以下几种主要方式获取跨境数据：从境外数据经纪人购买、从境外网站爬取数据、利用境外开源网站的数据集，以及直接从境外用户收集数据。上述方法各有特点，也面临着不同的法律风险和合规挑战。

a. 从境外数据经纪人购买

企业可以通过数据经纪人从境外合法购买训练数据，其通常包括个人数据、行为数据、市场数据等多种类型，可用于模型的训练和优化。然而，这种方式存在多重风险，主要涉及隐私与数据保护、数据合法性与来源合规性，以及数据质量与适用性等方面。例如，在处理欧盟公民数据时，企业必须严格遵守《通用数据保护条例》（General Data Protection Regulation，GDPR）的要求，确保数据主体的知情同意、数据最小化、存储限制等原则。违反 GDPR 可能导致高达 2000 万欧元或全球年营业额 4%（以较高者为准）的罚款。

b. 从境外网站爬取数据

通过爬虫技术从境外网站或平台自动抓取公开数据是一种常见的做法，特别是对于需要大量非结构化数据（如文本、图片和视频）的模型训练。但这种方式面临着多方面的法律风险，包括违反相关法律法规、侵犯知识产权，以及违反网站使用政策等。在美国，未经授权的数据爬取可能违反《计算机欺诈和滥用法》（Computer Fraud and Abuse Act，CFAA）。虽然 2021 年的 Van Buren v。United States 案例在某种程度上限制了 CFAA 的适用范围，但企业仍需谨慎行事。在欧盟，如果爬取的数据包含个人信息，可能违反 GDPR 的规定。此外，爬取的数据可能涉及第三方的版权或数据库权利，特别是在欧盟，《数据库指令》（Directive 96/9/EC on the Legal Protection of Databases，Database Directive）为数据库的创建者提供了特殊的法律保护。

c. 从境外开源网站获取数据

从 GitHub、Kaggle 等开源平台获取数据集是一种便捷且广泛使用的方式。这些数据通常在开放许可（如 MIT、Apache、CC-BY 等）的基础上提供给开发者和研究人员使用。然而，使用开源数据仍然存在一些潜在风险，主要涉及开源许可的合规性、隐私风险，以及数据质量和责任问题。不同的开源许可对数据的使用有不同的限制，某些许可可能要求在使用数据的产品中包含原始许可文本，或者限制商业使用。尽管开源数据集通常经过处理，但仍可能包含未经适当匿名化的个人信息，使用这些数据可能无意中违反隐私保护法规。此外，开源数据的质量可能参差不齐，且数据提供者通常不对数据的准确性或合法性负责。

此外，由于开源数据集大多来源于境外，其中包含大量与我国法律法规、价值观念不相符的内容，如果企业未经过充分的内容审核和安全评估即将其用于模型训练，可能导致模型输出违法违规内容，不仅面临监管处罚风险，还可能对社会产生负面影响。

d. 直接从境外用户收集数据

直接从境外用户收集数据可以获得高质量、定制化的训练语料，但也面临着最复杂的隐私保护法规挑战。

这些挑战主要涉及隐私与数据保护法律、跨境数据传输，以及数据安全等方面。不同国家和地区的数据保护法规要求各不相同，例如，GDPR 要求企业必须有明确的法律基础来处理个人数据，并赋予用户多项权利，如访问权、删除权、数据可携带权等。在美国，除了联邦法律，还需要考虑各州的隐私法规，如《加州消费者隐私法案》（California Consumer Privacy Act，CCPA）和《弗吉尼亚消费者数据保护法》（Virginia Consumer Data Protection Act，VCDPA）许多国家对个人数据的跨境传输有严格限制，例如，GDPR 要求将数据传输到欧盟以外的国家时，必须确保该国具有“充分的数据保护水平”，或采取适当的保障措施，如标准合同条款（SCCs）。此外，跨境收集和传输数据增加了数据泄露的风险，一旦发生数据泄露，企业可能面临多个司法管辖区的处罚和诉讼。

1.2 合规建议

针对不同模式的境外数据获取方式，我们有不同的针对性合规建议。

a. 从境外数据经纪人购买

针对此种数据获取方式，企业应选择声誉良好、具有相关资质的数据经纪人，并应与其签署详细的数据处理协议，明确数据的来源、使用范围和责任划分。与此同时，企业需要进行尽职调查，确保数据的收集和处理符合原始数据所在地的法律要求，以确保购买的数据符合企业的合规标准和质量要求。

b. 从境外网站爬取数据

为了合规地进行数据爬取，企业应仔细研究目标网站的使用条款和 robots.txt 文件，尊重网站的爬虫政策。考虑与数据源网站建立正式的数据共享协议也是一个可行的选择，这可以大大降低法律风险。在技术层面，实施措施控制爬取速率，以减少对目标网站的负面影响。

c. 从境外开源网站获取数据

为了安全合规地使用开源数据，企业可以建立专门的开源合规团队，负责审核和管理所使用的开源数据集，并创建开源数据使用清单，仔细记录每个数据集的来源、许可类型和使用范围，并定期对开源数据的使用情况进行合规审计。同时建立严格的数据内容审核机制，采用关键词库、分类模型和人工抽检等多种方式对数据进行安全风险识别。对于违反社会主义核心价值观、包含歧视性内容、涉及商业违法违规或侵犯他人合法权益等内容，应予以及时识别和过滤。此外，企业宜建立开源社区监测机制，及时跟踪和评估开源数据的更新变化情况，确保持续符合相关法律法规要求。

d. 直接从境外用户收集数据

企业需要制定全面的隐私政策，清晰说明数据收集的目的、使用方式和用户权利，实施用户同意管理系统，确保获得用户的明确同意，并允许用户随时撤回同意。在欧盟等地区，采用隐私设计（Privacy by Design）原则，在产品设计初期就考虑隐私保护，可以大大降低后期的合规风险。在成本允许的情况下，考虑在不同地区部署本地化的数据中心，以满足数据本地化要求，也是一种有效的合规策略。

#2.

境外数据处理的风险点与合规建议

2.1 数据清洗

由于大模型产品的训练数据对于大模型产品的生成内容起到决定性的作用，因此必须保证训练数据的质量。数据清洗能够去除训练数据中的违法和不良信息及个人信息，是训练数据合规的必要环节。《办法》第 7 条要求训练数据满足《网络安全法》等法律法规的要求，采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性。《欧盟人工智能法（草案）》也要求服务提供者采取数据清洗、可用性评估、偏差检查、缺陷识别等数据治理措施，确保训练、验证和测试所用的数据集具备相关性、代表性、准确性和完整性。

在实践中，企业可以采取根据违法和不良信息特征库进行关键词匹配、根据已有的不良网址过滤数据、构造用于数据清洗的深度学习人工智能等方法进行数据清洗。企业还应建立训练数据管理的内部规章制度、标准，将清洗训练数据的规则和流程制度化。

同时对于本土大模型产品而言，训练数据中一旦包含境外数据，则将引发对于价值取向和意识形态的额外关注。因此企业应审慎使用来自境外的训练数据，如训练数据中包含境外数据，则应对其中的价值取向和意识形态内容采取更加严格的清洗措施，以有效降低产品运营中的风险。《要求》5.1 条提出，如需使用境外语料，应合理搭配境内外来源语料。

2.2 数据标注

标注的原理是在初步训练完成后，通过由标注人员对大模型的生成结果进行打分、修改、重写等评价行为，调整此后大模型的生成逻辑，使生成结果不断向期望值靠拢。标注能够使大模型产品得以根据标注人员的反馈更好地完成任务，有效提升准确性与安全性。ChatGPT 和 GPT4 均将标注机制作为最主要的内容安全机制，通过对不良内容降低权重、人工编写合规回复供大模型学习等方式实现内容安全。因此，企业在处理境外数据时需要建立完善的标注规则，具体可以分为以下几点。

a. 建立标注人员队伍

从事标注工作的人员直接决定着标注工作的质量，因此标注人员的管理也是标注工作的重要组成部分。

《办法》第 8 条规定，服务提供者应对标注人员进行必要培训。在实践中，企业需要招募稳定且具有相应能力的人员进行标注工作。除了在标注工作开始前必要的培训外，企业还应以月份或季度为单位，组织定期培训，对标注人员在标注工作中出现的问题进行及时纠正，统一标注工作的尺度。企业还需做好培训记录，证明培训确实已经发生。

b. 建立标注制度规范

从事标注工作的团队往往较为庞大，因此标注工作必须具有统一的规则，以确保标注内容和标注质量整体上的一致性。

《办法》第 8 条要求企业制定符合《办法》要求，清晰、具体、可操作的标注规则。其中符合《办法》要求，是指要能够通过标注实现防止生成政治不正确、色情暴力、歧视性信息等违法和不良内容；清晰、具体、可操作，则是要求规则不能只是原则的简单罗列，而应根据标注过程中可能产生的具体问题给出具有实践意义的指引。

c. 开展标注审核

标注对于大模型产品生成结果的影响极大，因此需要对标注的质量进行严格的把控。

《办法》第 8 条要求企业抽样核验标注内容的准确性，防止不当的标注行为造成大模型产品的偏差。《要求》第 5.3 条提出，要区分功能性标注与安全性标注，对功能性标注，应对每一批标注语料进行人工抽检，发现内容不准确的，应重新标注；发现内容中包含违法不良信息的，该批次标注语料应作废。对安全性标注，每一条标注语料至少经由一名审核人员审核通过。在实践中，企业还应注意对于抽样核验中发现标注内容不正确的，应有相应的纠偏机制，能够消除不正确机制带来的影响。

#3.

数据安全评估方法

根据《生成式人工智能预训练和优化训练数据安全规范（征求意见稿）》的规定，在通用安全评价方面，应重点检查企业对预训练和优化训练数据的分类分级管理情况、数据安全监测措施的部署情况、安全防护技术措施的落实情况以及应急响应机制的建设情况。

同时，还应检查企业是否具备完整的数据处理活动记录，评估日志记录的完整性和有效性，确保数据处理过程可追溯。其中，人工抽检方式应从全部数据中随机抽取不少于 4000 个样本，采用关键词、分类模型等技术抽检方法应覆盖不少于总量 10% 的数据，且技术抽检的数据样本中不含安全风险内容的比例应不低于 98%。

在预训练和优化训练数据处理活动的评价方面，规范要求分别从数据收集、数据预处理和数据使用三个环节进行评估。

在数据收集环节，应核验数据来源记录的完整性和准确性，检查同类型数据的来源多样性；在数据预处理环节，应对数据样本的元数据内容、安全风险识别记录和知识产权风险评估记录进行抽样检查，每类数据来源的抽样数量不得少于 100 个样本；在数据使用环节，应重点检查个人信息使用的授权情况、敏感个人信息的单独同意记录，以及企业采取的防范模型输出违规内容的措施。对于优化训练数据，还需额外关注生成式人工智能生成内容的版本信息记录和安全风险识别情况。

注释

[1]. 《互联网信息服务深度合成管理规定》将训练数据定义为用于训练机器学习模型的标注或基准数据集。

‍