大数跨境
0
0

数安智库 | AI训练数据安全管理实践

数安智库 | AI训练数据安全管理实践 数智安全行动计划
2022-11-24
2

数安智库

专家简介


李科:DSI数安智库专家,北京海天瑞声科技股份有限公司副总经理、业务负责人、数据保护官(DPO)。拥有十余年人工智能(AI)行业从业经验,是多项相关专利技术的发明人;现任海天瑞声数据保护官,领导公司数据安全工作。本文由海天瑞声DPO工作组共同完成。

作为AI技术、AI应用基础的训练数据


随着智能语音、计算机视觉、自然语言等领域的人工智能(AI)技术(特别是监督学习下的深度学习)的突破,AI产业近年来取得了长足的发展,并逐步形成了由基础层、技术层、应用层构成的产业链条。其中,作为基础层重要组成部分的训练数据,是训练AI算法模型、提升AI技术水平、促进AI技术向应用、产品转化的基础生产要素。AI数据企业通过训练数据(集)的设计、采集、加工处理、质检等生产环节,生产、形成优质的标准化数据产品或数据服务成果,用于AI算法和模型训练,为AI技术和AI产业的发展助力。

正如中央深改委《关于构建数据基础制度更好发挥数据要素作用的意见》等法规、政策文件所指出,数据作为新型生产要素,是数字化、网络化、智能化的基础,在应用数据要素、发展数字经济过程中,需要统筹发展与安全,将安全贯穿数据治理全过程,守住安全底线,切实履行数据安全责任。

因此,AI训练数据的质量和安全性,将直接影响AI算法、AI技术的质量和安全性。如何识别AI训练数据生产、使用过程中的安全要求和法律、业务、技术等各类风险,并对风险进行有效管控、确保数据安全,无论对从事AI数据业务的基础层企业来说,还是对作为数据使用者的AI技术层、应用层的企业(统称“AI企业”)来说,都是需要慎重考虑的问题。

AI数据的业务链条和法律关系


基于上文介绍的AI产业链条,AI数据的业务链条可以简要地以下图体现:
图1 AI数据业务链条

上述业务链条对应的数据流转链条、数据法律关系如下:
图2  AI数据业务所涉数据流转链条及其数据法律关系

AI数据业务主要包括标准化数据集(或称“数据产品”)和委托定制服务(或称“数据服务”)两种业务模式,主要业务环节包括数据集结构设计、数据采集、数据处理(整理、标注、校对、质检等),其中,又以数据标注为最典型的服务方式,经标注的结构化数据是监督学习下的深度学习技术所必需。

在数据产品模式下,AI数据企业生产自有数据产品并向客户销售。这种模式下,AI数据企业具有数据处理者的角色,而使用数据产品用于其算法、技术训练的客户是参与数据共享的数据接收方。

在数据服务模式下,AI数据企业接受客户的委托、为客户处理其数据。这种情形下,客户具有数据处理者(或个人信息处理者)的角色,而AI数据企业是受托处理者。

对于AI企业来说,无论是作为数据处理者、受托处理者或者数据接收方,均需要依照《数据安全法》《个人信息保护法》等有关要求,履行其数据安全义务。

基于AI数据业务链条的安全管理:聚焦数据采集和标注


考虑到数据流转的线性特点(即数据收集是其他数据处理、使用行为的基础),与其他行业的数据收集一样,对AI数据合规性的管控也应当从数据收集的源头做起。同时,考虑到数据标注及其标注结果对于AI算法和模型训练的重要性,数据标注环节也是AI数据合规管理的重要一环。

以下就从聚焦数据采集和数据标注环节的角度,对AI数据的合规管理进行介绍。

(一)数据采集环节:针对多样化数据类型的风险防控
依据所支持的人工智能技术的不同,AI训练数据也可对应地分为语音识别(ASR)、语音合成(TTS)、自然语言处理(NLP)、计算机视觉(CV)等几大业务类型。这些不同的业务类型,所涉及收集、处理的数据类型也可能千差万别。

例如,语音识别、语音合成业务中,主要收集自然人的录音、声音;自然语言处理业务中,可能收集文本信息;计算机视觉业务中,图片、视频等视觉载体所涵盖的内容更为广泛,既可能包括人、也可能包括物或环境。

就这些不同类型的、非标准化的数据,如何识别、确定其属性(例如,数据是否属于个人信息),如何理解其对应的安全要求(例如,文本信息涉及的信息内容安全要求)、如何识别和控制安全风险(例如,个人信息授权瑕疵的风险),是数据安全管理的基本要求,也是AI企业工作的重点和难点。AI企业可以通过法律风控、标准化工作流程、合规审计等事前预防、事中控制和事后监督相结合的方式,应对多样数据类型带来的合规挑战。具体而言:

1. 事前预防:法律研究和风险评估
就每一数据类型,AI企业可以对其法律属性和安全要求进行研究,评估收集、处理该类数据的法律要点,提前应对、规避可能的法律风险。特别地,考虑到AI数据收集可能具有跨国境、跨法域的特点(例如,语音业务中,需要在他国进行外语种语音的采集),对于数据法律要求的研究,还可能需要关注不同法域之间的异同和衔接。

2. 事中控制:标准化工作流程
标准化工作流程有助于从整体上保证业务质量、控制业务流程风险。特别地,考虑到数据全流程、全生命周期的特点,数据收集环节的数据授权质量直接决定了后续数据处理活动是否能够合法合规地开展。也就是说,数据收集环节的合规,是整个数据业务链条合规的基础和源头。因此,在AI数据收集中,标准化工作流程对个人信息收集合规的意义和作用最为突出。AI企业可以通过制定标准化授权文件模板、制定个人信息收集工作指引性文件(SOP)等方式,对数据收集阶段、数据授权问题予以重点关注,从源头把控AI数据安全风险。

3. 事后监督:数据合规审计
许多企业都面临有限的审计资源需要在众多审计事项中分配的问题。考虑到数据收集阶段对AI数据质量和合规性的重要性,数据收集阶段应当是AI数据企业进行数据合规审计时最先考虑、最应重视的方面。AI数据企业可以开展针对数据收集、个人信息收集活动的专项审计,通过专项审计发现数据处理活动可优化、提升之处,通过完善业务流程、技术手段等直接改进手段,以及培训、持续督导等中长期手段,促进公司数据合规水平的整体提升。

(二)数据标注环节:技术措施和管理措施相结合
数据标注环节涉及大量数据的处理,这些数据可能是AI数据企业自采数据,也可能是AI技术、AI应用企业等客户委托AI数据企业处理的数据,并很可能具有创新性强、保密性高、商业价值大的特点,这对处理数据的AI数据企业的安全和保密水平提出了更高要求。对数据标注环节的安全性、保密性的管控,需要技术、管理双管齐下,方能达成预期的安全管控效果。

1. 数据标注等数据处理环节的技术措施支撑
技术措施支撑是数据安全管理的有效保障。AI企业可以通过搭建一体化平台等技术手段,将数据安全要求贯穿到数据(集)设计、收集、标注、质检等数据处理全流程,使得进行标注等数据处理活动的人员行为可以通过技术手段被控制、记录,实现闭环操作和管理,避免数据被非法访问、泄露或不当使用。
图3 一体化人工智能数据处理平台数据安全管控流程

2. 数据标注等数据处理环节的管理措施支撑
项目管理、员工管理等管理措施与上述一体化平台等技术手段相结合,将起到更好的合规管理效果。在项目管理方面,项目经理等项目人员根据业务、技术的实际情况开展数据标注业务流程的标准化建设,形成标注规范、平台操作文档等标准化文件,保证数据标注等数据处理活动的规范性。在员工管理方面,AI企业可以通过严格的员工保密制度,以及定期的、充分的数据安全培训,来确保员工对数据安全要求的认识和执行。

以上是我们基于企业实践所初步总结的较为通用的数据安全管理经验,即将业务、法律、技术等各方面的需求和要求有机结合,使其共同作用,逐步形成完善、合理的数据安全合规管理体系,为AI业务发展和安全保障提供支持。AI行业是一个新兴行业,数据安全也是一个正在快速发展和变化的合规管理领域,作为AI企业,我们也将在这一领域不断探索,完善、提升。

声明:本文仅代表作者个人观点,不代表本公众号及其运营单位意见或立场。

 数安智库简介


数安智库是数据安全推进计划(DSI)于2021年4月20日成立的专家库,旨在整合专家资源,实现优势互补,推动行业发展。首批共有130余位专家加入DSI数安智库。截至目前,数安智库专家已产出多篇数据安全方面的高质量文章(均已发布在DSI公众号)。未来数安智库将致力于研究行业痛点问题,凝聚行业共识,探索应对方案,不断提升自身专业性。


往期精选

1

一图读懂“可信数安”评估评测

2

数据安全推进计划简介!

3

一图读懂“数据安全治理能力评估”

4

数安talks | 数据安全管理的思考

【声明】内容源于网络
0
0
数智安全行动计划
围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
内容 342
粉丝 0
数智安全行动计划 围绕数据安全与人工智能安全相关工作,从政策解读、标准建设、评估测试、咨询服务、人才培训等方面搭建数智安全交流平台,构建数智安全专业社群。
总阅读706
粉丝0
内容342