离线
|
作者 | Graphcore
更快、更早地诊断疾病、开发定制化药物和研制新药:人工智能在医疗领域具有巨大的潜力,可以显著改善患者的治疗效果、挽救生命,并帮助全球人类保持健康和延长寿命。
进步正在迅速发生,并且已经产生了重大影响。这反过来又对用于训练人工智能模型的患者敏感数据的隐私性和安全性提出了新的挑战。诚然,公众、医学界和政府层面对这个问题的讨论越来越多,但我们显然还需要研究改进人工智能技术,从而更好地保护数据隐私。
目前,斯坦福大学医学院(Stanford University School of Medicine)的研究人员在差分隐私(一种保护敏感数据的关键方法)的使用方面取得了重大突破。通过使用Graphcore IPU,斯坦福团队能够将具有差分隐私的人工智能训练速度提高10倍以上,将这项被认为计算难度过大而无法广泛使用的技术转变为现实世界的可行解决方案。
在使用非隐私敏感训练数据证明其应用后,斯坦福团队通过与Graphcore合作,正计划将其技术应用于新型冠状病毒肺炎的胸部CT图像,旨在揭示关于继续在全球影响人们正常生活的这个病毒的全新见解。
1
医疗人工智能中的数据隐私:挑战
在人工智能中使用敏感的个人数据会带来诸多挑战,但最重要的两个挑战是维护数据主权和防止识别个人。两种情况均有可用的、精良的技术解决方案,而斯坦福大学的研究使这两种解决方案更加可行。
2
算力:联邦学习(Federated Learning)
使用来自代表全球不同人群的多个机构和提供者持有的数据集的大量且多元患者数据进行训练的模型更强大,更不容易出现某些类型的偏见,最终更加有用。
标准机器学习方法需要集中整理数据以进行校勘。即使尝试通过删除患者的识别信息来匿名化数据,将这些信息传递给第三方研究机构和组织的需求也被证明是一个重大问题。事实上, 要求监管、以将患者数据保留在获取数据的管辖范围内的呼声日益高涨。
联邦学习可以提供部分答案,因为它允许人工智能模型在匿名患者数据上进行训练,而无需将这些数据集中起来。相反,开发中的模型被发送出去,并在本地数据上进行训练。
虽然联邦学习是一项有价值的技术,但最近的研究突显出一个问题,即 通过从经过充分训练的模型推理数据,潜在地将其与个人联系起来或恢复原始数据集来重新识别匿名健康信息的能力会带来隐私漏洞。
出于这个原因,联邦学习的使用也依赖于推进差分隐私的应用。
3
差分隐私
通过训练联邦学习模型,差分隐私使敏感数据的保护更进一步,没有人可以从中推理出训练数据或恢复原始数据集。
差分隐私随机梯度下降(简称DPSGD)通过剪裁和扭曲单个训练数据项的梯度,向匿名患者数据添加噪声。增加的噪声意味着对手不太可能发现所使用的个体患者数据或恢复用于训练模型的原始数据集。
差分隐私随机梯度下降(DPSGD)虽然明显益于保护敏感数据,但它仍是一个欠缺研究的领域,直到现在还没有应用于大型数据集,因为它与传统形式的人工智能计算(例如GPU或CPU)一起使用的计算成本太高。
这是斯坦福大学医学院计算机视觉专业的放射学研究团队在他们的论文《纳米批次DPSGD:在IPU上探索具有较小批次尺寸的ImageNet上的差分隐私学习》[1](NanoBatch DPSGD: Exploring Differentially Private Learning on ImageNet with Low Batch Sizes on the IPU)中重点关注的领域。
由于计算需求,DPSGD通常应用于较小的数据集并对其进行分析。然而,斯坦福团队能够使用从公开可用的ImageNet数据集获取的130万张图像,在IPU系统上进行首次分析。在本文中, ImageNet被用作由私有数据组成的大型图像数据集的代理。这项工作可以帮助克服当前大规模部署差分隐私的障碍。
请继续阅读关于IPU使用成效的更多信息。
4
使用Graphcore IPU加速纳米批次(NanoBatch)DPSGD
加速处理的常用方法是使用微批次,其中数据被联合处理,联合梯度被剪裁和扭曲,而不是基于单个样本的梯度。虽然这会加速训练,但分析表明,这会降低生成模型的预测质量以及生成的隐私保护指标,从根本上违背了其目的。事实上,使用微批次尺寸为1或“纳米批次”运行的实验显示出最高的准确度。
图1:针对各种梯度累积计数进行100个时期的训练后的分类准确率 。我们比较了尺寸为1(“纳米批次”)和尺寸为2的微批次处理。有效批次尺寸等于微批次尺寸乘以梯度累积计数。相同的裁剪和噪声比被用于不同的有效批次尺寸。因此,具有相同有效批次尺寸的条目具有相同的隐私保护保证。
纳米批次DPSGD不常用的一个主要原因是它大大降低了GPU的吞吐量,以至于在ImageNet上运行纳米批次DPSGD ResNet-50需要数日的时间。
相比之下,纳米批次DPSGD在IPU上非常高效,结果比在GPU上快8到11倍,把时间从几天缩短到几小时。对于IPU,由于IPU的MIMD架构和细粒度并行性可以实现高得多的处理效率,因此DPSGD所需的额外操作的计算开销要低得多(10%而不是50-90%)。
此外,隐私保护和纳米批次DPSGD需要使用Group Norm(组规范)而不是Batch Norm(批次规范),这可以由IPU加以快速处理,但会显著减慢GPU。Graphcore Research最近推出了一项新的归一技术—— (代理规范), 它恢复了Group Norm的批规范属性,并提高了执行效率。 这是一个颇有意思的未来探索方向。
表1:μBS=1时不同硬件之间的吞吐量比较。GPU上的DPSGD使用vmap和TensorFlow差分隐私库。左侧:上一代芯片。右侧:最新一代芯片。
5
在6小时内在ImageNet上训练纳米批次DPSGD
这些技术意味着ResNet-50可以在大约6小时内在IPU-POD16系统里在ImageNet上训练100个时期(相比之下,GPU需要数天)。达到了71%的准确率,比非私人基线低5%。由于噪声的增加,因此这是预料之中的。虽然它比预期的要好,但仍然是未来研究的一个领域。
对于差分隐私,通常还报告epsilon和delta值。该论文显示,对于10-6的delta,epsilon为11.4,这是一个很好的范围。该团队有一些关于如何进一步减少这种情况的想法,如通过更激进的学习率计划来减少训练时期的数量。
表2:具有不同总批次尺寸(tbs)和配置的ImageNet上的差分隐私结果(第100时期的最终ε和准确度)。持续时间以训练100个时期所需的小时数来衡量。
这项研究为提高医疗和金融服务以及许多其他行业的应用程序的隐私保护提供了重要机会。在这些行业中,个人敏感数据的保护至关重要。
论文链接:https://arxiv.org/abs/2109.12191
来源:https://www.163.com/dy/article/GNQFEQTJ0511DPVD.html
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
|