“联”音｜人工智能在医学影像中的应用研究—超声跨模态影像分析

Good · 发表于 2023-2-27 00:34:10

多模态: 综合决策的基础

当我们在路上看到一只没有见过的品种的小狗，正在好奇这是一种什么生物时，如果我们听到小狗的叫声，我们便能断定这是一只小狗，且根据眼前的情况我们知道这是新的品种。在这个例子中，我们接收到了视觉和听觉两种模态的信息，从而对眼前的信息有了更加完备的认知。在决策的过程中，对于同一实体的每一种信息来源或者形式，可以称为一种模态。我们便是依据多种模态的信息，才对周边的世界有着完善、精确的理解。
多模态学习: 人工智能的发展方向

为了使得人工智能全面了解周边的世界，它需要像人类一样学会处理和融合多种模态的信息。从上个世纪70年代开始，研究者们便致力于开发能够处理多种模态信息的机器学习算法。其中最早发起的关于多模态学习的研究之一就是基于视听融合技术的语音识别[1]，Yuhas等人利用神经网络对输入图像进行编码，从而得到代表声学频谱包络的32维信号，并与语音信号进行加性融合从而得到最终的声学信号估计。其算法流程如下图所示。

此后，多模态学习算法不断发展，并逐渐细分为几个研究方向，分别是多模态表示学习、模态转换、模态对齐、多模态融合以及协同学习等。
多模态医疗影像分析技术的最新进展

医疗影像中有着丰富的多模态信息。多模态医疗影像分析可以大致分为几个方向：缺失多模态影像生成、多模态影像融合与配准以及基于多模态影像的自动诊断等。
缺失多模态影像生成是医疗影像分析的一大重点。以肺肿瘤为例，对于靠近或被软组织（如胸腔隔膜）包围的肿瘤，由于计算机断层扫描（Computed Tomography，CT）图像的成像方式缺乏清晰的软组织造影，使得肿瘤边界的划分十分困难。而磁共振（Magnetic Resonance，MR）图像则包含丰富的软组织造影信息。如果同时利用这两种不同模态的医学影像进行分析，就可以提高肿瘤边界划分的准确度。但在实际中，同时拥有多种模态的医学影像数据量十分稀少，此时缺失多模态影像生成就显得十分重要。
2019年，Jiang Jue等人在《Integrating cross-modality hallucinated MRI with CT to aid mediastinal lung tumor segmentation》一文中提出了一种基于缺失多模态影像生成的交叉模态导出深度学习算法（Cross-Modality Educed Deep Learning，CMEDL），如下图所示。作者用少量不成对的CT和MR影像作为训练集，使得循环对抗生成网络（Cycle GAN）可以根据已有的CT影像生成对应的伪MR影像。通过训练时将CT的特征与伪MR特征对齐，对CT分割网络进行正则化训练。作者认为在CT上被认为无法解释的特征可以被利用来建立另一种模态，让模型从另一个更有效的模态（MR）进行学习，从而提升性能。这种算法不仅适用于肺肿瘤，也适用于其他结构和模态。

而对于多模态影像融合来说，模态融合分为早期融合，后期融合和多层融合。早期融合是指输入阶段或低水平特征阶段的特征融合，如下图（a）。后期融合指的是高水平特征阶段，预测层之前的特征融合，如下图（b）（c）。多层融合是指多水平特征均参与融合，如下图（d）所示。后期或者多层融合比早期融合能够对下游任务（如分割）产生更好的效果。

2019年，Cheng Li等人在《Learning Cross-Modal Deep Representations for Multi-Modal MR Image Segmentation》中提出了基于多流CNN的多层特征融合网络，用于处理多模式MR图像。对于乳腺MR图像，T1C模态（脂肪组织呈现白色，水，液体成分/囊肿呈现黑色）在检测乳腺肿块方面具有较高的灵敏度和相对较低的特异性，其不仅突出了乳房肿块区域，而且还突出了与肿块不相关的区域，例如器官和密集的腺体组织。在这种情况下，T2W图像（脂肪组织，水，液体成分/囊肿均呈现白色）有助于区分所有增强区域中的肿块的位置。因此，作者选择T1C作为对结果有更大影响的主模式；T2W为辅助模式，作为对主模式信息的补充。
受师生网络之间知识蒸馏的启发，作者提出了一个有监督的老师-学生跨模态学习框架。主模态产生监督信息，该信息调制辅助模态的学习。如下图所示。

受基于激活的注意力转移策略的启发，作者又设计了一个空间注意力块（Spatial Attention，SA）来提取监督信息。该模块的输入是来自主模态流的特征，而输出是权重热图，用于指导主模态和辅助模态的信息选择，其结构示意图如下：

实验结果证明，该方法比传统的多层特征融合性能有进一步提升。
超声多模态影像

超声检查有着无创、便捷、低成本的特点, 在我国是乳腺疾病的最基本且最重要的筛查手段，发挥着重要的临床价值。然而，随着超声筛查流程越发复杂，超声医师的工作负担也愈发繁重。根据2019年国家卫健委年鉴资料[2]，截止到2019年底，全国目前注册的超声医师约15万人，而缺口至少还有15万。
在超声筛查技术中，灰阶超声筛查是超声筛查的基础，其成像原理为：人体组织的声阻抗在不同密度的组织之间不同，因此可以通过组织界面之间的回声反射成像。超声医师通过二维灰阶超声图像可以观察脏器的位置、形态、大小、后方回声等性质，从而对脏器的健康程度进行评估。在乳腺相关病变筛查过程中，灰阶超声虽然有着可接受的敏感度和特异度，但由于图像的高噪音和低空间分辨率，诊断结果更依赖于超声医生的经验，因此也存在22%的误诊率及16%的漏诊率[3]。
近年来，一种新型超声诊断技术——剪切波超声弹性成像（Shear Wave Elastography，SWE），正逐渐应用到乳腺、甲状腺、肝胆胰脾肾等部位相关疾病的诊断中，作为传统二维灰阶超声的补充。剪切波超声弹性成像客观、定量地描述了病变区域组织的机械特性，可以根据剪切波的传播速度判断组织的硬度，为超声医师区分良性腺瘤与恶性肿瘤提供了相对可靠的依据。目前国内越来越多的三甲医院开始将乳腺超声弹性成像列入乳腺筛查的常规流程，将弹性成像诊断结果作为修正原始灰阶超声诊断结果的依据之一，供门诊医生综合参考。
此外，通过注射造影剂使得散射回声增强的超声造影技术也是近年来超声筛查技术领域的重要发展研究方向之一。超声造影能有效反映病变周边区域的血流情况，从而获得比二维灰阶超声和剪切波弹性超声更加先进的诊断效能。
以上超声多模态各种检查手段均存在诊断标准模糊、操作者依赖等问题，与精准医疗的基本理念有很大差距，那么是否可以融合超声多模态海量信息做到精准诊断，对疾病进行精准分期及预后预测，包括分子分型、组织学分级和淋巴结转移状态等，是最终实现精准治疗的关键科学问题。
超声影像与机器学习/深度学习技术

由于超声筛查流程复杂，人工阅片繁琐且低效。为提高诊断效率以及精确度，研究者们尝试开发自动诊断系统（CAD），一方面降低人工诊断的主观性导致的误诊，另一方面减缓超声医师的压力并节省了诊断时间。早在60年代，CAD系统就被应用于乳腺癌症的诊断中[4]。CAD系统通常可以划分为图像预处理，图像分割，特征提取以及病变分类四个步骤，如下图所示。

近年来基于机器学习的CAD系统蓬勃发展。基于机器学习技术的CAD系统可以自动提取超声影像中与病变相关的图像特征如肿瘤轮廓、纹理、边界、回声强度等，并通过这些特征对图像进行分类从而实现自动诊断。2013年，Moon等人提出了一种基于BI-RAD特征的乳腺病变机器学习诊断算法。该算法从灰阶超声图像中提取6大类共38种影像学特征，并通过多项式回归模型对图像特征进行恶性肿瘤预测。该算法流程如下图所示。

而近年来，机器学习技术的重要分支——深度学习技术在图像分类与分割中大放光彩，随着深度学习模型AlexNet[5]在2012年ImageNet图像分类竞赛中获得第一名，更多研究者认识到深度学习提升自动诊断系统中性能的潜力。首次将深度学习技术引入到乳腺超声CAD系统中的是2016年Cheng等人的研究[6]。Cheng等人构建了一种叠栈式去噪自编码器，并通过逐层监督训练的方式使得自编码器中的每一层都对输入图像的局部信息进行编码，最终实现对输入图像的特征提取。Cheng等人提出的算法流程如下图所示。

此后，更加成熟的模型被应用于乳腺超声领域，例如Han等人[7]基于GoogleNet网络模型[8]搭建了基于深度学习的乳腺超声CAD系统，并研究了超声图像病变边缘区域对乳腺病变关键信息提取的重要性。
超声多模态影像分析技术进展

作者Xiangmin Han在论文《Deep Doubly Supervised Transfer Network for Diagnosis of Breast Cancer with Imbalanced Ultrasound Imaging Modalities》中提出了融合了剪切波弹性成像和二维灰阶超声两个模态的监督学习模型。作者提出的双监督迁移学习框架（DDSTN），利用弹性图像辅助灰阶图像。模型由两部分构成：配对的弹性与灰阶两个模态超声图像相结合的网络以及非配对的灰阶超声图像作为单模态的网络。算法流程如下图所示：

和单模态相比，该模型的优势在于：

将从其他模态学习到的“知识”迁移到现有的学习框架中；
非配对的灰阶模态超声图像提供额外的单模态信息；

文章的实验结果表明，作者提出的模型对比单模态深度学习方法在准确度、灵敏度、特异度等均有明显提升。

总结与展望

多模态超声影像分析技术作为医疗多模态影像分析技术的一个分支，是进一步挖掘超声影像病变预测潜力的研究方向。通过融合多种模态超声影像中关于病变的关键信息，可以提升预测的准确性与可靠性。随着精准医疗概念工作的展开与推进以及人工智能技术的发展，基于人工智能的多模态超声影像分析技术也将逐步得到完善并应用到临床筛查中。多模态医疗影像分析技术的发展涉及到各个模态之间的交互、迁移以及对齐，且需要与临床实践紧密结合，面临着以下挑战：
数据集数量：深度学习能取得的主要性能改善，在很大程度上依赖于大样本训练数据集。有限的数据集已成为深度学习方法在医学超声图像分析中进一步应用的瓶颈。目前研究人员最常用的方法之一是进行跨数据集（模态内或模态间）学习，即迁移学习。
数据集标注：另一方面，医学图像数据集的标注是一个耗费时间和人力资源的工作。作者Xiaomeng Li在论文《Self-supervised Feature Learning via Exploiting Multi-modal Data for Retinal Disease Diagnosis》中提出了一种多模态的自监督学习框架。模型利用了未标注图像，通过表征学习自动获得各模态的特征和模态间的互信息，从而节省了图像标注的时间和成本。
多模态融合：目前为止，多模态的深度学习所选用的模态还比较单一，组合比较固定。为了更好地辅助医生诊断，超声-核磁共振、超声-CT等跨模态和多个模态的融合则是需要进一步研究发展的方向。
面对这些挑战，我们将致力于发展完善、可靠、可用的多模态影像分析算法，打通各模态之间的信息交互，实现信息利用最大化。

参考文献
[1] B. P. Yuhas, M. H. Goldstein, and T. J. Sejnowski, “Integration of acoustic and visual speech signals using neural networks,” IEEE Commun. Mag., vol. 27, no. 11, pp. 65–71, Nov. 1989.
[2] 国家卫生和计划生育委员会. 2019-中国卫生和计划生育统计年鉴[M]. 北京: 中国协和医科大学出版社, 2019.
[3] Oeffinger KC, Fontham ET, Etzioni R, et al. American Cancer Society. Breast cancer screening for women at average risk: 2015 guideline update from the American Cancer Society[J]. JAMA, 2015,15:1599-1614.[J].
[4] R. Takahashi and Y. Kajikawa, “Computer-aided diagnosis: A survey with bibliometric analysis,” International Journal of Medical Informatics, vol. 101, pp. 58–67, 2017.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1097–1105.[J].
[6] CHENG J Z, NI D, CHOU Y H, et al. Computer-Aided Diagnosis with Deep Learning Architecture: Applications to Breast Lesions in US Images and Pulmonary Nodules in CT Scans[J]. Scientific Reports, 2016, 6: 24454.[J].
[7] HAN S, KANG H.-K, JEONG J.-Y, et al. A deep learning framework for supporting the
classification of breast lesions in ultrasound images[J]. Physics in Medicine & Biology, 2017, 62(19): 7714–7728.[J].
[8] SZEGEDY C, LIU W, JIA Y, et al. Going Deeper With Convolutions[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, Massachusetts, USA: IEEE, 2015.[J].

账号		自动登录	找回密码
密码			注册[Register]

“联”音｜人工智能在医学影像中的应用研究—超声跨模态影像分析

相关帖子

个人中心