「Z计划」 是智谱 AI 面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球,持续招募中!🐋(点击报名)「Z基金」是智谱联合生态伙伴设立的大模型生态投资基金,侧重早期,管理规模 15 亿元人民币。
数据是推动大模型技术发展的关键要素。随着大模型相关应用商业化进程的加速,如何合法、合规地使用训练数据 [1] 已成为创业者不容忽视的问题。
近年来,我国相继出台《生成式人工智能服务管理暂行办法》(后文简称《办法》)、《生成式人工智能服务安全基本要求》、《生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》等规范性文件,从数据来源、内容审核、安全保护等多个维度对提出了严格要求。
作为大模型领域的创业者,应当如何在数据获取、清洗、标注等环节,规避法律风险,确保合规操作?为解答这一问题,Z 计划摘选了《 Z 计划|大模型创业者手册-法务与产品合规篇》中的相关内容。在本文中,我们着重探讨了有关境外数据和开源数据使用的关键风险点和合规建议,并提供了数据安全评估的方法。
《大模型创业者手册》是由智谱 Z 计划 & Z 基金携手众多合作伙推出的创业实操指南,旨在帮助创业者从 0 到 1 启动 AI 大模型创业。手册采取理论结合实践案例的形式呈现,主要覆盖大模型产品与商业模式、营销与增长、法务与合规等关键内容。
目前《大模型创业者手册-法务与产品合规篇》已正式发布,如需阅读全文可以扫码获取。

获取手册全文👆或点击【阅读原文】
1.1 法律风险
1.2 合规建议
针对不同模式的境外数据获取方式,我们有不同的针对性合规建议。
a. 从境外数据经纪人购买
针对此种数据获取方式,企业应选择声誉良好、具有相关资质的数据经纪人,并应与其签署详细的数据处理协议,明确数据的来源、使用范围和责任划分。与此同时,企业需要进行尽职调查,确保数据的收集和处理符合原始数据所在地的法律要求,以确保购买的数据符合企业的合规标准和质量要求。
b. 从境外网站爬取数据
为了合规地进行数据爬取,企业应仔细研究目标网站的使用条款和 robots.txt 文件,尊重网站的爬虫政策。考虑与数据源网站建立正式的数据共享协议也是一个可行的选择,这可以大大降低法律风险。在技术层面,实施措施控制爬取速率,以减少对目标网站的负面影响。
c. 从境外开源网站获取数据
为了安全合规地使用开源数据,企业可以建立专门的开源合规团队,负责审核和管理所使用的开源数据集,并创建开源数据使用清单,仔细记录每个数据集的来源、许可类型和使用范围,并定期对开源数据的使用情况进行合规审计。同时建立严格的数据内容审核机制,采用关键词库、分类模型和人工抽检等多种方式对数据进行安全风险识别。对于违反社会主义核心价值观、包含歧视性内容、涉及商业违法违规或侵犯他人合法权益等内容,应予以及时识别和过滤。此外,企业宜建立开源社区监测机制,及时跟踪和评估开源数据的更新变化情况,确保持续符合相关法律法规要求。
d. 直接从境外用户收集数据
企业需要制定全面的隐私政策,清晰说明数据收集的目的、使用方式和用户权利,实施用户同意管理系统,确保获得用户的明确同意,并允许用户随时撤回同意。在欧盟等地区,采用隐私设计(Privacy by Design)原则,在产品设计初期就考虑隐私保护,可以大大降低后期的合规风险。在成本允许的情况下,考虑在不同地区部署本地化的数据中心,以满足数据本地化要求,也是一种有效的合规策略。
2.1 数据清洗
由于大模型产品的训练数据对于大模型产品的生成内容起到决定性的作用,因此必须保证训练数据的质量。数据清洗能够去除训练数据中的违法和不良信息及个人信息,是训练数据合规的必要环节。《办法》第 7 条要求训练数据满足《网络安全法》等法律法规的要求,采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。《欧盟人工智能法(草案)》也要求服务提供者采取数据清洗、可用性评估、偏差检查、缺陷识别等数据治理措施,确保训练、验证和测试所用的数据集具备相关性、代表性、准确性和完整性。
在实践中,企业可以采取根据违法和不良信息特征库进行关键词匹配、根据已有的不良网址过滤数据、构造用于数据清洗的深度学习人工智能等方法进行数据清洗。企业还应建立训练数据管理的内部规章制度、标准,将清洗训练数据的规则和流程制度化。
同时对于本土大模型产品而言,训练数据中一旦包含境外数据,则将引发对于价值取向和意识形态的额外关注。因此企业应审慎使用来自境外的训练数据,如训练数据中包含境外数据,则应对其中的价值取向和意识形态内容采取更加严格的清洗措施,以有效降低产品运营中的风险。《要求》5.1 条提出,如需使用境外语料,应合理搭配境内外来源语料。
2.2 数据标注
标注的原理是在初步训练完成后,通过由标注人员对大模型的生成结果进行打分、修改、重写等评价行为,调整此后大模型的生成逻辑,使生成结果不断向期望值靠拢。标注能够使大模型产品得以根据标注人员的反馈更好地完成任务,有效提升准确性与安全性。ChatGPT 和 GPT4 均将标注机制作为最主要的内容安全机制,通过对不良内容降低权重、人工编写合规回复供大模型学习等方式实现内容安全。因此,企业在处理境外数据时需要建立完善的标注规则,具体可以分为以下几点。
a. 建立标注人员队伍
从事标注工作的人员直接决定着标注工作的质量,因此标注人员的管理也是标注工作的重要组成部分。
《办法》第 8 条规定,服务提供者应对标注人员进行必要培训。在实践中,企业需要招募稳定且具有相应能力的人员进行标注工作。除了在标注工作开始前必要的培训外,企业还应以月份或季度为单位,组织定期培训,对标注人员在标注工作中出现的问题进行及时纠正,统一标注工作的尺度。企业还需做好培训记录,证明培训确实已经发生。
b. 建立标注制度规范
从事标注工作的团队往往较为庞大,因此标注工作必须具有统一的规则,以确保标注内容和标注质量整体上的一致性。
《办法》第 8 条要求企业制定符合《办法》要求,清晰、具体、可操作的标注规则。其中符合《办法》要求,是指要能够通过标注实现防止生成政治不正确、色情暴力、歧视性信息等违法和不良内容;清晰、具体、可操作,则是要求规则不能只是原则的简单罗列,而应根据标注过程中可能产生的具体问题给出具有实践意义的指引。
c. 开展标注审核
标注对于大模型产品生成结果的影响极大,因此需要对标注的质量进行严格的把控。
《办法》第 8 条要求企业抽样核验标注内容的准确性,防止不当的标注行为造成大模型产品的偏差。《要求》第 5.3 条提出,要区分功能性标注与安全性标注,对功能性标注,应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废。对安全性标注,每一条标注语料至少经由一名审核人员审核通过。在实践中,企业还应注意对于抽样核验中发现标注内容不正确的,应有相应的纠偏机制,能够消除不正确机制带来的影响。
#3.
根据《生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》的规定,在通用安全评价方面,应重点检查企业对预训练和优化训练数据的分类分级管理情况、数据安全监测措施的部署情况、安全防护技术措施的落实情况以及应急响应机制的建设情况。
同时,还应检查企业是否具备完整的数据处理活动记录,评估日志记录的完整性和有效性,确保数据处理过程可追溯。其中,人工抽检方式应从全部数据中随机抽取不少于 4000 个样本,采用关键词、分类模型等技术抽检方法应覆盖不少于总量 10% 的数据,且技术抽检的数据样本中不含安全风险内容的比例应不低于 98%。
在预训练和优化训练数据处理活动的评价方面,规范要求分别从数据收集、数据预处理和数据使用三个环节进行评估。
在数据收集环节,应核验数据来源记录的完整性和准确性,检查同类型数据的来源多样性;在数据预处理环节,应对数据样本的元数据内容、安全风险识别记录和知识产权风险评估记录进行抽样检查,每类数据来源的抽样数量不得少于 100 个样本;在数据使用环节,应重点检查个人信息使用的授权情况、敏感个人信息的单独同意记录,以及企业采取的防范模型输出违规内容的措施。对于优化训练数据,还需额外关注生成式人工智能生成内容的版本信息记录和安全风险识别情况。
注释
[1]. 《互联网信息服务深度合成管理规定》将训练数据定义为用于训练机器学习模型的标注或基准数据集。


