联邦学习在医疗健康场景下的应用- 大数跨境

首页

联邦学习在医疗健康场景下的应用

数组智控产业发展科技院

2021-09-07

导读：随着“AI+医疗”的进一步融合、深入，AI辅助技术已经在多个医疗领域为人类提供帮助，特别是基于大数据的深度学

随着“AI+医疗”的进一步融合、深入，AI辅助技术已经在多个医疗领域为人类提供帮助，特别是基于大数据的深度学习正在逐渐改变传统的医疗行业，为疾病提供更快速、更准确的诊断和治疗。

但医疗领域也是受数据隐私保护影响最大的行业之一，借助联邦学习打破困境，成为当前一个可行的解决方案。

医疗健康数据一般是指收集分析得到的消费者（患者）的身体和临床数据，按照2018年9月国家卫健委发布的《国家健康医疗大数据标准、安全和服务管理办法（试行）》，健康医疗大数据可以划分为以下几个方面：

• 患者的电子病历、医学影像等为主的健康医疗服务数据。

• 基因序列、蛋白质组等生物医学数据。

• 城镇居民、职工等医疗保险数据。

• 药物临床试验、医疗机构药品等医药研发与管理数据。

• 疾病监测、突发公共卫生事件监测等公共卫生数据。

• 卫生资源与医疗服务调查、计划生育统计等统计数据。

• 与人类健康密切相关的空气污染物和气候状况等环境数据。

这些数据通常过于复杂（具有高度非结构化、异构、稀疏等特点），以至于使用传统的数据处理方法效果不佳。因此，医疗保健数据通常需要由具备专业医学知识且资深的数据科学家来处理。另外，面对来自庞大数量、丰富种类和严苛准确性的医疗数据的挑战，医疗系统需要采用能够收集、存储和分析这些信息的技术，这也强化了工业界使用大数据分析来制定战略性业务决策的必要性。

把机器学习应用于医疗健康领域是目前一个极具潜力的发展方向，也是最近十分火热的投资方向。近年来，我们看到非常多的公司、机构、学校投入大量资源于此。就医疗影像来说，医院很大一部分收入来源于此，并且影像检查的需求每年都以30%左右的速度增长，但与之相对应的是专业医生的数量每年增速仅4%左右。这个巨大的缺口导致急需一种手段提升医疗影像数据的处理效率。医学数据与普通图像数据最大的区别在于：医学图像的处理专业性强，且对准确率的要求更高，机器学习依靠对大量数据的处理能力，在医学治疗和诊断等多方面有非常多的应用。然而，机器学习在医疗领域的应用所面临的最大的挑战来自匮乏的优质数据，我们经常处于数据贫乏且正样本量较小的环境中。例如，虽然一般的物体识别项目可以使用数百万个图像进行训练，但是在医学成像中的数据集却只有数百个对象。医学影像研究人员已经通过收集或生成大型高质量数据集（例如，英国的生物数据库UKBiobank）来解决这一问题，即使这样，Biobank的数据集当前也只有1400万个对象。

医疗健康数据匮乏主要是由于数据包含极其敏感的私人信息。事实上，尽管获取医学图像的费用可能很高，但是医疗中心每年仍然为护理和全球研究进行了数百万次扫描，由于数据隐私法规，这些图像是不可直接用于研究的，即使在这些机构内部，这些数据的访问也受到严格的限制。因此，如何在保证数据隐私的前提下，合法利用这些医疗数据也成为当前亟待解决的问题。一种可行的方案是数据匿名化，但真正的数据匿名化很难实现，因为目前尚不清楚机器学习可以从看似无用的数据中提取出什么样的信息。例如，机器学习算法可以从一些医学图像中预测患者的年龄和性别，这就导致可能存在的隐私泄露问题。因此，这些隐私问题限制了我们在研究中充分发挥人工智能的优势。

随着隐私保护技术的不断发展，我们可以在不共享患者数据的前提下，对来自多个医院和诊所的数据进行模型训练。它允许将数据的使用与模型训练分离。换句话说，我们不再需要请求数据集的副本才能在研究中使用它。

最近，在Google、DeepMind、Apple、OpenAI和微众银行等科学家的共同努力下，这项技术已变得越来越易于研究人员和工程人员实施。

现在，我们给出医疗健康领域数据特性的总结。首先，从数据安全角度出发，医疗数据有下面三个特点：

• 隐私性：医院中的数据高度涉及患者隐私。其中不仅包含了患者的基本信息，如年龄、性别、家庭关系等，更重要的是包含了患者的疾病史甚至当前健康状态。此类信息一旦被泄露滥用，将造成不可估量的后果。

• 稀有性：诊疗数据是每个医院的数字资产，每个数据样本的记录都可能耗资巨大。其中包含了各个医院医生的心血及研究成果。

• 安全性：医疗数据可能包括了不同地区健康状态的关键信息，如果泄露可能造成国家安全方面的威胁。

另外，从数据分布角度，医疗数据相比于普通的图片数据，也具有下面两个特点：

• 复杂：医院数据是个极为复杂的系统，包含量化检查结果、文字记录、时序变化等多种角度及维度的信息。对机器学习来说，统一的处理带来了极大的挑战。

• 不平衡：医院由于各自属性及地域环境影响，数据差异极大。这也给机器学习带来了挑战。

综上所述，医疗领域的数据孤岛问题是一个极有深远社会价值但很棘手的问题。本章将探讨一种新兴的隐私保护机器学习技术，即联邦学习，来处理医疗数据的案例。

联邦学习在医疗上可根据实际情况使用不同的方案。

例如，当每家医院自身的样本数量不足，但联合所有医院可解决样本不足的问题时，可以用横向联邦；当每家医院握有相同患者的不同检测数据时，此时适用纵向联邦学习。

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读940

粉丝0

内容986