数据要素市场化大潮下,数据作为一种新型生产要素的战略性意义被明确。新一轮AI革命掀起的“智能涌现”中,数据也成为了关键的基础资源之一。作为数据发展的持久命题,安全与隐私保护面临新的挑战。
7月7日,2023世界人工智能大会“数据要素与隐私计算高峰论坛”在上海举行。蚂蚁集团副总裁兼首席技术安全官韦韬发表了《数据要素内循环和外循环》主题演讲,阐述了当前数据流通领域的新挑战,以及技术方法体系、平台框架、技术标准等面临的新变革。
韦韬认为,政策是推动数据要素发展的强劲动力。随着 “数据二十条”等基础性文件的就位,各领域对数据要素的需求全面爆发,但数据要素的流通依然面临非常多的挑战。特别地,漫长的数据供应链面临的数据滥用和泄露的风险依然非常高。数据要素如何安全健康发展依然是一个很有挑战的命题。
蚂蚁集团在保障数据要素安全可信流转方面,这些年持续做了多层面的工作和积累。韦韬指出,数据要素行业的发展需要政策、法规、技术、标准、生态等多层面的紧密协同来推动。在技术上需要通过融合创新,重点解决全行业“会用易用,渐进普惠”的巨大挑战。其中“密态即服务”、“密态天空计算”等基础平台的规模化部署有望起到关键作用。
经过推演以及和行业专家的多方交流,韦韬认为未来大规模数据要素流转将是基于技术信任的数据跨云互联,即密态天空计算。“密态天空计算”是指基于技术信任和密态交互标准的数据跨云互联,提供数据的跨云密态流转和计算服务,其目标是允许基于数据密态的应用能跨多个云厂商运行。
数据要素市场化
需要安全与发展并重
近几年来,国家相继出台了多部数据安全有关的法律,包括《密码法》、《数据安全法》、《个人信息保护法》等,划定了数据安全的基线。与此同时,“数据二十条”等基础性文件的出台,制定了数据要素的总体发展要求和框架。这一系列数据要素战略的持续升级,再次明确了数据要素发展,需要安全与发展并重。
从技术上来看,数据要素流通依然面临非常多的挑战。特别地,漫长的数据供应链时刻面临着数据滥用和数据泄露两大风险。如何做好数据要素流转全链路的安全保障,依然是全行业面临的一个巨大挑战。
数据要素行业是一个全新的行业,在技术、法规、政策方方面面都有强交叉。数据要素行业发展,要解决两个突出问题:确权和定价。对于确权问题,“数据二十条”将这一争议进行了明确,即搁置传统物权上对应的所有权,而是将数据的持有权、使用权、经营权三权分置,这为整个行业做了关键的松绑,大幅度向前推进了工作。
在定价方面,行业相对乐观。不管是通过定价还是分润的方式,只要数据流转起来,给各行各业带来的价值将是非常显性的。但是核心前提是,数据真正要以数据要素形态进入市场,能够在主体间流转起来,从而发挥出价值,其中还有非常多的挑战。
2021年底,蚂蚁集团提出数据行业正在迈入前所未有的数据密态时代,这是基于政策发展和技术成熟度洞察做出的判断。我们看到这一判断非常好地契合了“数据二十条”关于“持有权、使用权、经营权”分置的思想。
传统的基于明文的数据交易,虽然在法律合同上有很多要求和约束,但是传统技术上很难保障明文数据交易的相关权益。数据在明文的状态下,拷贝成本非常低,一个数据很容易变成“你有、我有、大家有”,这时候数据的市场价值就会崩塌。这就导致了传统的基于明文数据流转的交易形式很难成功,这也是我们为什么一定要走向数据密态。
技术论证和应用实践带来的启示是,只有将使用权和持有权分离,才能保障数据持有权不会失控。而数据密态可以保障数据持有权和使用权分离,只有数据以密态方式流转、计算、融合、消费,才可以实现它全链路的安全可控,包括“可用不可见,可控可计量”。
数据密态指的是数据以密态形式流通,保障其流转、计算、融合直到销毁的全链路安全可控。数据密态将数据要素持有权和使用权分离,实现数据可用不可见,持有权不失控;并对使用权跨域管控,让使用可控可计量。数据密态的核心命题是数据持有者对第三方授权使用时,对使用权的跨域管控。这对全行业也带来了全新的命题——数据要素的内循环和外循环。
传统的数据流转是一个内循环问题,运维者在自己的运维管控域内对数据安全负全部责任。但是数据要素最主要的价值是在主体之间发生流转、交易、融合、计算,产生新价值。在这种场景下,数据一定会部分甚至全部离开持有者的运维管控域。这时候,数据要素流转的安全保障就成为了一个外循环问题,数据持有者的使用权、持有权都存在跨域管控的问题。这对全行业都是一个全新命题。
有一点和传统方式上有显著区别,传统方式要使用数据,一定要先拥有明文数据,而明文数据的广泛跨域使用也会直接导致数据持有权、使用权失控滥用的巨大风险。而数据密态技术,包括隐私计算、区块链等等,是可以实现数据的密文流转和使用的。数据外循环是一个全新的命题,特别是要支撑数据要素全行业发展,会涉及到不同的技术。
总体上,数据迈向外循环,要离开持有者的运维域进行管控,技术上核心有三件工作:第一是匿名化。匿名化重点解决的是《个人信息保护法》规定的个人信息保护合法合规问题;第二,在外循环控制层面,会以区块链为核心技术来解决数据流转管控的问题,包括存证、审计、溯源等问题;第三,在外循环数据层面,会以隐私计算为核心,解决数据“可用不可见,可控可计量”的问题。
当然,这三方面挑战非常多。首先是法律合规挑战。《个人信息保护法》提到,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。个人信息的使用前提是获得本人同意,这对于个人信息保护非常重要,但为数据流转使用带来了巨大挑战。比如,当今的AI技术,包括大火的AI大模型,都是强依赖于数据,是数据驱动的智能体系。而它对数据所需要的广泛性和无偏差性要求非常高。如果AI模型训练所需要的数据都要经过每个个体的同意,那么获得数据的偏差性非常大,这时便很难有效支撑人工智能体系发展。再比如,在安全风控场景的黑灰产对抗,如果说需要获得每个人的数据授权同意,那么也无法有效与黑灰产进行对抗。
如何保护个人信息安全权益同时兼顾整个行业向前发展,包括与社会安全保障之间达到平衡,核心在于匿名化,这项工作行业做了非常多的努力。传统上认为,数据做到个人身份去标识,同时个人属性数据做脱敏是不是就很好地实现了匿名化?其实并不然,举两个比较典型的案例,美国在线(AOL)和美国网络影视公司Netflix,他们为了学术研究和比赛,把内部数据做了去标识,属性数据做了脱敏,公布在互联网上。但是这些数据依然被研究者,甚至是记者,通过一些互联网公开数据相关联,识别出了背后真实用户是谁,导致了数据泄露并吃到了高额罚款。
工业界和学术界目前达成的共识是,在开放空间高维关联之下,绝对的匿名化意味着个体颗粒度数据要素价值绝对的毁损。那么平衡点在哪呢?我们认为,是要做可信受控环境下的匿名化,而不是在开放环境当中谈绝对匿名化。即匿名化的趋势,是可信安全受控环境中的相对匿名化。
这是因为,数据公开即便做脱敏和去标识也很难保证绝对匿名化的要求,只要数据有相关个体价值,总是能够推断出其中的关联。传统匿名化考虑更多的是个人信息到属性的关系映射,但是往往忽视了个人信息处理环境。而信息处理环境决定着关联性是开放关联,还是可控关联。阻断开放关联,保障匿名化实效,平衡行业发展需求和合规需求,对行业未来发展是至关重要的。
这一思路有很多相关的机构和企业做了探讨,目前来看是最合适的途径,既可以保障个人的信息不会泄露,又可以保证行业数据价值很好地释放。同时它也非常强地依赖于可信技术,和跨域管控技术的支撑。
数据要素密态流转需要完整的可信隐私计算技术能力支撑。在这方面,蚂蚁经过6年多可信隐私计算技术探索和积累,打造了一套安全、通用的工业级可用隐语可信隐私计算技术栈,从底层的软硬件一体化、可信底座TEE,到上层的计算引擎、部署管控,再到最上层的应用,都提供了完整的层次化的解决方案。隐语技术栈在2022年7月已经开源,包括隐语开源框架、OcclumTEE OS等。我们也很高兴,开源社区也积极参与到了我们的共建工作中,包括行业ISV公司,高校本科生、研究生和老师,与我们共同打造一个易用、好用的可信隐私计算技术栈。
但是,行业共同的挑战依然非常多。首先,没有哪一个单一的隐私计算技术可以覆盖所有场景,未来一定是多种不同的隐私计算技术共同支撑整个行业要素流转应用。其次,不同的场景使用隐私计算的方式不一样,有的时候是管道模式,有的时候需要密态计算因子汇聚的枢纽方式来做隐私计算。但整体是现在有不同的技术,支撑不同方向的发展。
目前全行业亟待解决的问题是,不同技术路线如何衡量它的安全通用分级。因为不同的隐私计算技术,它能够提供的安全保障能力、所依赖的资源、能处理的规模、提供的相关功能差别非常大。而现有安全分级标准,多针对单个技术路线来制定安全级别,不足以适配 (新)技术的应用和发展。在隐私计算上付出不同数量级的成本时,在各个维度上应该有相应的收益,在安全侧应该有一个相对通用的尺子来衡量。不能把专业安全问题抛给行业用户让他们去选择,这非常需要在标准层面给出相关指导。
在这方面,我们也做了一些工作,分别根据场景适用、安全要求、性能成本等拟定了可信隐私计算产品通用安全分级的五个层次。总体来看,隐私计算产品的通用安全分级标准亟需行业共同探索制定。
经过过去几年的发展,隐私计算在金融、保险、政务、医疗、供应链、能源很多方面都有应用,但是我们看到这些应用还比较浅。首先隐私计算80%以上是基于隐私集合求交(PSI)的应用,这条路线非常有用,但是也非常简单,在今天占了绝对大比例的场景。其次是线性统计,占了10%多。而真正的树模型应用很少,做BI数据分析和深度学习模型的更少。
为什么会这样呢?归根结底还是现在的隐私计算的技术门槛太高了。当下有不少隐私计算创业公司做得非常出色,但是也可以看到很多行业对隐私计算创业公司的需求是做传统的数据ISV工作。而传统数据ISV做不好这件事情,是因为他们没有足够的专业人才支持做基于隐私计算的数据服务。
要真正支持全行业的数据流转发展,一定要把隐私计算技术门槛降下来,而必经之路就是要推动隐私计算服务发展出密态计算即服务模式(Cryptographic Computing as a Service, C2aaS),通过密态技术基础设施提供服务。通过这种密态计算服务支撑广大数据ISV公司,进而对中小企业提供密态SaaS服务,为各行业提供数据要素密态流转的服务支持。
最核心的问题是,一定要把技术门槛降下来,解决行业广大用户会用、易用的问题。
第一阶段是计算密态化阶段,即所做的隐私计算一般是直接基于明文数据集,通过密态计算得到明文交付结果。在这个阶段,联邦学习、多方安全计算(MPC)等技术被行业了解、熟知和应用。主要是让行业感受到建立隐私计算的概念,确信数据“可用不可见,可控可计量“的安全是可以保证的。
其次是大数据密态化阶段,这是我们今天处于的阶段,也是要真正把隐私计算深度应用起来、够解决更复杂问题的阶段。它跟第一阶段有本质区别。第二阶段中,大数据里面涉及到的数据处理、机器学习等都需要大量的中间结果。这些中间结果也需要是密态的。这就对算法提出了更高的要求。这个阶段对于行业的主要挑战是要降低技术门槛,解决会用易用的问题。
在当下这个阶段,各个机构开始全面使用密态计算并获得收益,无论是要处理的数据规模还是复杂程度将远高于第一阶段。更具体的,是要解决大数据技术生态和AI技术生态的密态化技术升级问题,特别是如何让现有的广大的一线大数据和AI工程师们能够便捷的用上密态化技术能力?如果只能依靠少数同时精通隐私计算和大数据技术的行业专才重人力投入的话,那么是无法支持全行业数据要素转型的迫切需求的。在这个阶段,一个重要的方向是通过密态即服务(Cryptographic Computing as a Service,即C2aaS)、技术开源等方式,来降低技术门槛,推动大数据和AI技术密态化。
接下来是数据要素密态化阶段。当我们解决隐私计算在行业的“会用易用”问题以后,行业推广还会面临高昂的使用成本问题。而把成本降下来就一定要把规模扩大,通过多方异构互联实现全行业数据密态流通,解决中长尾数据要素流通的难题,实现广泛普惠的互联互通。
2021年,加州大学伯克利分校两位教授提出了天空计算(Sky Computing)的概念。在今天,世界上有多个云厂商,但是现在每朵云成为了一个封闭环境,导致无论是成本还是技术红利的使用上都会面临很多挑战,整个行业发展期待云之间可以互通,构建“云上的云”,所以他们提出天空计算为全行业提供技术基础设施。
我们看到数据要素安全流转技术基础设施的未来天生就是密态天空计算。“密态天空计算”指的是数据的跨云密态流转和计算服务,它能够支持多方储存在不同云服务上的数据密态因子进行密态计算以及流转。
在云计算越来越普遍的当下,多云之间的数据流转需求也越来越多的开始涌现。但是当多个需求方开始数据流通的时候,就需要对接不同的隐私计算厂商,对于小微企业来说很难负担。所以大家产生了很强的互联互通需求。在这样一种强需求下,加速推动了互联互通标准的出现。
数据要素流转互联互通首先要解决的是跨域信任的建立。数据要素要做外循环非常重要的基础就是要跨域管控。我们认为要基于密码学、可信计算技术提供一个跨域的技术信任,而不是依赖于数据要素流转平台运行在哪个云上所以信任它。这样可以对相关节点上的软硬件进行验证,把数据的密态因子放在这样的环境里进行计算、融合、流通,产生价值。这种基于技术信任的可信平台是可以有效降低域外运维人员对数据要素流转带来的巨大风险。
其次,隐私计算天生就是为了打通数据孤岛的。我们不希望不同的隐私计算运营平台产生更多的数据孤岛。隐私计算行业天生就需要一个基于密态标准的互联互通,非常好地契合了天空计算的愿景。未来要把整个行业使用成本降下来,一定要建立一个足够大规模的技术基础设施,来共同解决行业的易用问题、成本问题。
在密态天空计算技术的支持下,多方将跨云实现数据的密态互联互通,隐私计算也将从点对点变成了网状流通。各个网络上的节点统一遵循一致的底层标准后,全行业就能开始取得规模化效应,边际成本将大幅降低。到时候,密态天空计算的成本可以会从如今的千倍甚至万倍以上,降到十倍到百倍之间,让数据安全可控规模化流转成为可能。
我们期待接下来的工作里,与同行们一起逐步解决易用问题,同步把互联互通问题构建好。未来蚂蚁会与行业伙伴们协力推出密态即服务(C2aaS)的产品与服务,让更多的云上数据密态流转变成基于技术信任的可信流转,并通过支持标准化密态协议实现互联互通,从而逐渐实现一个支持全行业数据密态流转的技术基础设施。在向这个阶段迈进的过程中,隐私计算技术将会不断变得普惠平等易用。通过技术融合创新让隐私计算应用成本大幅度下降,规模化部署基础平台让新技术触手可得。
过去五年大致是在计算密态化时期;未来三到五年,可以逐渐实现第二阶段大数据密态化。在这个阶段需要不断修建“密态枢纽”,并通过互联互通慢慢建立起小规模的密态天空计算网络。希望在5至10年的时间里,行业的发展慢慢扩大。届时,性能和成本的限制将会减少,十几方的联合通用密态计算也将可以高效支持,企业外循环数据流动将会变得易用自由,更多的数据价值将会被释放。
隐私计算经过这么多年的发展,打下了很好的基础,但是我们依然面临很大的挑战。数据要素大潮带来了全新的数据安全外循环技术挑战,走向密态时代,方法体系、平台框架、技术标准都面临全新变革。
数据要素行业迎来了前所未有的历史机遇。数据要素的发展得到国家发展战略的政策支持,中国企业在隐私计算领域的技术积累和专利方面已经走向了世界前列,这也是中国在这个领域里构建国际技术先进性标杆的机会。
未来,蚂蚁希望和大家一起协力,通过开源隐语可信隐私计算技术,持续攻关安全和易用,为行业打造数据密态流通的技术基础设施,与同行们共同推动数据要素和相关产业的安全健康发展。