大数跨境
0
0

天冕大数据|解决用户隐私和数据孤岛难题的利器:联邦学习

天冕大数据|解决用户隐私和数据孤岛难题的利器:联邦学习 天冕科技
2019-09-18
1
导读:大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题

数据是人工智能时代最重要的资源之一,随着大数据的进一步发展,对用户数据隐私和安全管理的日趋严格已经成为了世界性的趋势,互联网金融行业严监管也正在朝着更加纵深的方向迈进。同时,大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题。


为了解决用户隐私和数据孤岛难题,谷歌研究院团队率先提出了“联邦学习”这个概念,至今两三年时间大量的技术成果被报导出来,目前对它的研究已然甚嚣尘上,几乎每天都至少会发布一篇相关论文。2018年底在港科大杨强教授等人的推动下已经开始制定联邦学习的相关国际标准。


联邦学习要解决的是个人(2C)和企业(2B)间联合建模的问题:它能做到各个数据拥有者(个人/企业)自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的自有模型一样,但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略。这就是为什么这个体系叫做“联邦学习”。



1

 天冕大数据实验室的案例


天冕大数据实验室作为亚洲领先金融科技集团WeLab旗下的一站式金融科技服务商,早已意识到用户隐私和数据孤岛的难题,为更好的服务金融机构和企业客户,很早就开始了在联邦学习方面的研究和应用,并取得了一定的成果。


个人终端设备本地训练


天冕大数据实验室为某知名互联网消费信贷公司开发的用户行为反欺诈模型,其核心是,根据用户的在APP上的填写行为信息,在用户手机本地进行模型训练,然后仅将模型更新的部分加密上传到云端,并与其他用户的进行整合,共同完成整个模型的迭代更新。整个过程分为以下环节:


l 设备端下载当前版本的模型;

l 通过学习本地数据来改进模型;

l 把对模型的改进,概括成一个比较小的更新;

l 该更新被加密发送到云端;

l 与其他用户的更新即时整合,作为对共享模型的改进。


可以看出整个过程中,所有的样本数据都只停留在个人手机上。云端不存储任何个人信息。目前这个模型已经被应用于实际的生产项目,并取得了良好的效果。

这种方法在早期也被称为“联合学习”。



跨行业数据联合


天冕大数据实验室与某知名互联网信贷企业、某终端设备服务商、某细分电商合作共建信贷信用评估模型:某互联网信贷企业A拥有用户的金融数据,某终端设备服务商B拥有用户的手机使用行为数据,某细分电商C拥有用户的消费习惯数据。作为各自行业的头部企业,数据加密测试显示,用户的交集较大。同时由于行业不同,所以用户特征交集较小。企业间简单的交换数据在很多法规下是不允许的。用户是原始数据的拥有者,在用户没有批准的情况下,公司间是不能交换数据的。而联邦学习可以保证数据在不出本企业也能共同使用,将这些不同特征在加密的状态下加以聚合,以增强机器学习和建模的能力。


目前,天冕大数据实验室已经联合上述企业开发出用户收入预测模型、职业预测模型、用户价值评估模型等多个机器学习模型,并在实际应用中取得了满意的效果。这种方式也被称为“纵向联邦学习”。



同行业模型提升


天冕大数据实验室联合若干消金公司共建信贷反欺诈模型。北京某消金公司A,山西某消金公司B,四川某消金公司C,他们的用户群体分别来自各自所在的省份,相互的交集很小。但是,它们的业务很相似,记录的用户特征是相同的。但因各自样本量较小,利用自家样本建立的反欺诈模型的效果和稳定性都不能满足现实需求。天冕大数据实验室利用联邦学习的机制,充分利用多家的反欺诈样本,同时在不泄露样本的条件下,综合多家数据,最终,各家消金公司都得到了一个更加稳健,效果更好的模型,效果十分显著。这种方式也被称为“横向联邦学习”。



迁移学习补充


在两个数据集的用户与用户特征重叠都较少的情况下,不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。比如天冕大数据实验室最近正在研究的一个案例:有两个不同机构, 一家是某保险企业A,另一家是某 汽车保养服务平台B。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。这种方式也被称为“联邦迁移学习”。




2

算法特点


由此我们也可以看出联邦学习的几个显著特征:

l 各方数据保留在本地,避免数据泄露,满足用户隐私保护和数据安全的需求;

l 多个参与者联合数据建立虚拟的共有模型,实现各自的使用目的、共同获益;

l 在联邦学习的体系下,各个参与者的身份和地位相同;

l 联邦学习的建模效果和传统机器学习算法的建模效果相差不大;

l 模型效果取决于数据提供方对自己和他人的贡献,有助于激励更多机构加入数据联邦。



3

最新进展


说了那么多,联邦学习目前到底有哪些技术进展呢?谷歌是联邦学习技术及应用的积极推动者,于2019年2月发布了开源的联邦学习开源框架TensorFlow Federated。


国内方面,微众银行对外开源了自研 “联邦学习”FATE(Federated AI Technology Enabler)” 学习框架。今年2月份,由微众银行主办的IEEEP3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳成功召开,此次会议的召开也正式宣告“联邦学习”走入行业规范。


总而言之,无论是技术理论的探索还是统一标准的制定,在全球范围内对联邦学习的落地探索都会继续,联邦学习作为一个新兴的人工智能基础技术,还有很长的路要走。我们也有理由期待,随着联邦学习理论、应用体系的逐渐丰富,隐私保护问题所带来的技术挑战将得到有效解决。


END


天冕大数据实验室是亚洲领先金融科技集团WeLab旗下的提供金融风险技术、产品设计研发、营销获客推广等一站式服务的科技公司。


我们将基于WeLab在金融科技领域的知识积累,定期输出对于金融科技领域的产品特点、公司情况、商业模式、行业现状、发展趋势等思考的内容。



【声明】内容源于网络
0
0
天冕科技
天冕科技是WeLab汇立集团旗下一站式科技服务商,致力于助力企业数字化转型,关注我们,一起探索前沿科技!
内容 181
粉丝 0
天冕科技 天冕科技是WeLab汇立集团旗下一站式科技服务商,致力于助力企业数字化转型,关注我们,一起探索前沿科技!
总阅读5
粉丝0
内容181