FocusNetv2: Imbalanced large and small organ segmentation with adversarial shape constraint for head and neck CT images 发表时间:2021 发表期刊:Medical Image Analysis
Abstract
Fig.2 提出的focusnetv2的总体框架。
本文是我们初步工作 FocusNet (Gao et al., 2019) 的扩展(在以下论文中表示为 FocusNetv1)。对方法和实验进行了一些修改,包括通过新提出的对抗性自动编码器对器官形状先验建模、对更大数据集的额外实验以及更多消融研究。本文的其余部分安排如下。第 2 节回顾了医学图像语义分割、OAR 分割和 CNN 形状约束的相关工作。第 3 节描述了提出的 OAR 分割框架和对抗形状自动编码器,以实现更好的器官形状正则化。第 4 节介绍了实验结果。最后,第 5 节总结了方法和实验。
Related work
CNNs for medical image segmentation
最近,卷积神经网络由于能够从数据中学习更具代表性的特征,极大地推动了医学图像分析领域的发展。CNNs在许多具有挑战性的任务中展示了最先进的性能,例如图像分类,分割,检测,配准,超分辨率等。
Long等人(2015年)首次提出了全卷积网络(FCN),该网络使用卷积和1×1大小的滤波器来替换全连接层,并允许同时预测多个像素。Ronneberger等人(2015)进一步构建了一个“U”形网络(称为U-Net),具有收缩路径和对称扩张路径。跳跃连接还用于将特征从早期图层传播到后期图层。大量基于FCN和U-Net变体的作品被应用于二维医学图像分割领域(Christ等人,2016年;Yi等人,2019年;Brosch等人,2016年;Roth等人,2016年;Tan等人,2018年)。
对于CT或MR等3D图像,可以逐层使用2D CNN,但忽略了体积数据中编码的上下文信息。一些2.5D方法(Roth等人,2014年;Xu等人,2017年)试图通过使用三个正交切片或相邻切片来整合3D空间信息。但它们的表示能力仍然受到二维卷积核的限制。为了克服这个缺点,提出了基于3D CNN的算法。例如,Jçek等人(2016)提出了U-Net的3D版本;Milleri et al.(2016)提出了V-Net,它引入了构建块之间的残差连接(He et al.,2016),以缓解梯度消失问题。还针对不同的应用提出了几种3D网络,如Merkow等人(2016年);窦等人(2016);Kamnitsas等人(2017年)。
尽管基于3D CNN的方法可以更好地利用空间上下文来学习更好的特征表示,但由于训练误差主要由属于大型器官的体素控制,因此在3D任务中样本不平衡问题会被放大。Ronneberger等人 (2015) 提出使用加权交叉熵损失函数,而Milletari等人 (2016) 提出Dice损失,他们只能缓解不平衡数据的挑战,但离解决它还很远。
OAR segmentation for head and neck region
针对不同身体部位的放射治疗计划,提出了许多OAR分割工作。基于图集的方法是最常用的传统方法之一。具有预分割注释图的图集与要分割的图像之间的最佳转换通过仿射和可变形配准进行对齐。然后,可以通过在参考图像的注释图上应用此变换来获得目标图像的分割。参考图像可以是多个具有从训练集中生成的专家注释或模板的图像。基于图集的方法的准确性受两个因素影响: 第一,配准方法的能力,是否可以准确地对齐目标图像和图集图像。已经提出了不同的方法,例如 Demons 配准 (Thirion, 1998; Qazi et al., 2011)、块匹配 (Ourselin et al., 20 0 0; Han et al., 2008) 和 B-Spline 配准 (Zhang et al., 2009 年。其次,一些器官的生理或病理解剖变异使得很难找到目标图像和参考图像之间的最佳对应关系,因此提出了一些方法来使用反映患者平均解剖结构的地图集(Comowick等人,2009年)或多地图集结果的融合(Comowick和Malandain,2007年;Rohlfing等人,2004年)。一些混合方法使用活动轮廓 (Zhang et al., 2009) 和图形切割 (Van der Lijn et al., 2011; Fortunati et al., 2013) 对基于图集的分割结果进行后处理。尽管基于图谱的方法具有鲁棒性的优点,并且可以在没有用户交互的情况下执行分割,但它们基于图像配准技术,如果器官被肿瘤占据,可能会生成不正确的器官图。由于计算量巨大,时间成本可能高达数十分钟。
最近,采用卷积神经网络显着提高了 OAR 描绘的准确性。 Ibragimov and Xing (2017) 提出了第一个基于深度学习的算法。他们首先通过头部中心点检测 OAR,然后训练基于patch的 CNN 对感兴趣区域中的体素进行分类。任等人(2018) 提出了一种交错的 3D-CNN,用于联合分割 HaN 中的小器官,其中感兴趣的区域是通过配准技术获得的。朱等人(2019)提出了一种用于快速分割的 3D 挤压和激发 U-Net。童等人 (2018)提出了一种具有形状表示模型的全卷积神经网络。唐等人(2019)还提出了一种基于检测的两阶段分割方法,其中在分割头中应用局部对比度归一化以实现更好的分割性能。还有一些方法 (Mlynarski et al., 2020) 在其他方式(例如 MRI)中分割 OAR。
Shape regularization in segmentation CNNs
由于 CT 的成像原理,一些 OAR 在图像中没有显示出明显的边界,例如视交叉。 由于 OAR 是正常器官,它们通常在不同患者之间具有相对一致的形状,在分割网络中加入高阶形状约束可以使预测与先前的解剖知识更加一致。 我们提出了一种新颖的对抗性自动编码器(AAE),将形状正则化引入到我们的分割框架的训练中。 据我们所知,这是第一个利用自动编码器和对抗性学习来约束分割掩码的分割方法。
一个好的形状正则化项设计应该具有以下两个特点。首先,它需要能够以可微分的方式表示形状,以便可以通过反向传播训练分割网络以进行形状正则化;其次,它应该能够区分形状之间的细微差异,这样当分割网络预测的形状越来越接近真实形状时,它仍然会给出正确的惩罚。
标签映射所代表的形状是高度结构化和高维的,这使得在这样的高维空间中测量两个形状之间的相似性变得极具挑战性。高维形状通常位于一个低维形状流形中(Wang et al.,2014; Oktay et al.,2017),其中每个形状将被映射到子空间中的一个低维点(向量)。如果一个形状流形被成功地发现,从流形上的一个点(对应于一个特定的形状)(我理解为低维形状流形中的一个点对应高维形状中的一个特定的形状)开始,我们可以沿着流形上的不同方向遍历。相应的形状将在语义层面平滑而连续地变化。
因此,我们在低维形状流形中测量两个形状之间的相似性。我们使用形状自动编码器,这是一个经过训练的神经网络,可以尽可能地重建输入器官的形状(见图 4)。瓶颈结构使自动编码器能够将输入形状转换为潜在代码,该代码捕获其显著特征,同时丢弃不相关的特征。因此,如果自编码器能够很好地重构输入形状,则潜在空间是低维形状流形的良好近似(Lei et al., 2020; Zhu et al., 2016)。此外,自动编码器是可微的,并且可以通过最小化潜在空间中预测器官形状和真实形状之间的距离来规范估计的器官形状。
Fig.4 具有形状重建损失和对抗性 L 2 损失的对抗性自动编码器的结构。
对于第二个特征,准确测量预测器官形状和ground truth器官形状之间的相似性至关重要。因此,我们引入了一种对抗式训练方案来训练对抗式自动编码器。自动编码器使用来自小器官分割分支的预测形状和相应的ground truth形状进行训练。它有两个损失项,第一个是通过最小化传统的重建损失来重建输入形状以学习形状表示,
其中 x 是输入图像,y 是其对应的真实标签,G 是分割网络,G ( x ) 是给定输入图像的 SOS-Net 预测的二进制器官掩码,D ( y ) 和 D ( G ( x )) 是 给定ground truth y和预测的器官掩码G(x)的AAE 的重建结果。
另一个对抗性损失项试图通过最大化其在低维流形中的距离来区分预测形状和ground truth形状的潜在代码。通过这种方式,我们强制使用自动编码器来更好地对两种类型的形状进行编码并捕获它们的细微差异,而鼓励分割网络将自动编码器愚弄为无法捕获细微差异。因此,建议的对抗性形状损失公式化为
提出的 FocusNetv2 在两个 HaN CT 图像数据集上进行了评估。第一个数据集是一个自我收集的数据集,表示为我们的数据集。我们的数据集由 1164 份收集的鼻咽癌患者 CT 扫描组成。在每次扫描中描绘了在 HaN 放射治疗计划中要考虑的 22 个 OAR,包括(左和右)眼睛、(左和右)晶状体、(左和右)视神经、视交叉、垂体、脑干、(左和右)颞叶、脊髓、(左和右)腮腺、(左和右)内耳、(左和右)中耳、(左和右)颞下颌关节和(左和右)下颌骨。每个病例的ground truth注释由具有数百例注释经验的资深医生提供,每个结构由同一个注释者分割,并由另一个注释者审查。左右晶状体、左右视神经、视交叉、垂体因体积小、解剖结构复杂而被定义为小器官。CT扫描的各向异性体素间距为0.78毫米至1.25毫米,层间厚度为2.7毫米至3.5毫米。所有扫描重新采样至1×1×3 mm,以便进一步处理。我们随机抽取数据集,选择1044个样本进行训练,120个样本进行测试。
为了与最先进的HaN OAR分割方法进行比较,我们在公共数据集MICCAI Head and Neck Auto segmentation Challenge 2015数据集(表示为MICCAI’15数据集)上评估了建议的FocusNetv2。该数据集也称为哈佛医学院提供和维护的计算解剖学公共领域数据库(PDDCA)。该数据集包括来自口咽、下咽或喉III或IV期鳞状细胞癌患者的多幅图像研究。它由 38 个用于训练的 CT 扫描和 10 个用于测试的扫描组成,并具有 9 个器官注释:脑干、下颌骨、视交叉、(左右)视神经、(左右)腮腺和(左右)下颌下腺体,视交叉、左右视神经被定义为小器官。结构的描绘基于放射治疗肿瘤学组 (RTOG) 描述的协议。我们对所有扫描进行重新采样,使其体素大小为 1 × 1 × 2.5 mm 以训练我们的 FocusNetv2,同时为了与其他方法进行公平比较,我们通过我们提出的方法将预测的分割标签重新采样回原始间距,然后计算评估指标。
Implementation details
我们的方法是用Pytork实现的,并在NVIDIA TITAN Xp GPU上进行了培训。分割网络从零开始训练,初始权值取自标准高斯分布。我们首先训练S-Net,然后训练SOLNet,同时确定S-Net的训练参数。SOS-Net随后进行训练,并以另一种方式使用对抗式自动编码器进行更新。最后,我们对整个网络进行微调,以进行联合优化。我们使用ADAM优化器以0.05的学习率训练网络。批量大小设置为1。对于对抗式自动编码器,在数据集中使用地面真相标签对其进行预训练,以稳定对抗式训练过程。
原始CT图像大小约为n×512×512,其中n为切片数。由于每个CT图像的大部分是背景,因此它们被集中裁剪为n×240×240。最好使用整个图像卷来训练网络。然而,由于GPU内存的限制,在训练S-Net和SOL-Net时,我们从CT图像中沿z轴为每次迭代随机裁剪40个patch块。滑动切片策略带来的一个问题是,裁剪过程可能会破坏器官的形状以训练 AAE 和 SOS-Net。 由于两个数据集中的小器官主要是晶状体、视神经、视交叉和垂体。 它们仅位于沿 z 轴的几个相邻切片中,这些切片可以完全包含在一个 40 切片的立方体中,并且有很大的余量。 因此,我们在训练 AAE 和 SOS-Net 时采用了抽样策略。 尽管我们沿 z 轴随机平移对立方体进行采样,但我们始终确保立方体包含所有具有一定边距的小器官。 因此,小器官的形状是完整的。 CT 扫描每 40 个切片裁剪一次,沿 z 轴的步幅为 40,即裁剪之间没有重叠。然后我们将每个 40 切片的分割结果堆叠在一起以获得最终预测。 随机变换(x 和 y 轴上 40 个像素内的平移,10 度内的旋转,以及从 0.7 到 1.3 倍的缩放)用于训练期间的数据增强。
Evaluation metrics
我们在本研究中使用了两个评估指标。 Dice score coefficient (DSC) 使用公式
衡量预测分割和ground truth分割之间的重叠程度,其中 X 和 Y 分别代表预测和ground truth的体素集。 95% Hausdorff Distance(95HD) 是 Hausdorff Distance的变体,它测量 X 中的点到 Y 中最近邻点的最大距离。 HD 计算为两个方向的平均值,HD = (d H (X, Y ) + d H (Y, X)) / 2 。 95% Hausdorff Distance可以通过计算 95% 的最大距离来减轻异常值的敏感性。
Experiments on our collected dataset
我们将我们提出的方法与基于多图集的方法进行比较,其中对称归一化 (SyN) (Avants et al., 2008) 用作配准方法、DeepLabv3+ 的 3D 变体 (Chen et al., 2018) 和HaN OAR 分割中最先进的深度学习方法,名为 AnatomyNet (Zhu et al., 2019)。
对于基于多图谱的方法,由于约束和计算资源的限制,我们从训练集中随机选择9个CT扫描作为图谱。对称归一化(SyN)(Avants et al.,2008)及其在ANTs软件包中的实现用于恢复要分割的CT和每个图谱之间的最佳仿射矩阵和可变形变换场。将变换域应用于atlas标签,得到9个标签图,然后通过投票获得最终预测。DeepLabv3+(Chen et al.,2018)是一个著名的分割框架,最初设计用于二维语义切分。它使用空间金字塔池化和扩展卷积,实现了自然图像分割的最新性能。我们将它们的网络结构扩展到3D,用于体积分割。它被随机初始化,并使用与我们建议的FocusNetv2相同的损失函数进行训练。AnatomyNet(Zhu et al.,2019)设计用于对整个CT图像进行快速分割,与传统的基于Atlas的方法相比具有良好的性能。
Quantitative comparison
比较结果如表1和表2所示。 传统的基于多图谱的方法 SyN 在大器官上具有良好的性能,特别是对于那些与周围区域(例如下颌骨)具有高对比度的器官。 然而,对于小尺寸的器官,它会导致不理想的分割结果。 基于深度学习的方法在这些情况下具有压倒性优势,因为小器官具有更复杂的解剖结构,基于多图集的方法 SyN 处理复杂多样的解剖变化的能力有限。基于深度学习的方法之一,即使没有敌对的autoencoder,我们在大多数器官FocusNetv1性能更好。这是因为,我们的特别设计的两级框架大大降低背景,大器官和小器官之间的极其不平衡的比例。每个小器官分支都可以专注于指定器官的分割,其中包含高分辨率的详细信息以进行详细完善。在结合了拟议的对抗性自动编码器的对抗性形状损失之后,可以通过较大的边距进一步提高小器官的分割精度。和其他方法相比,我们的FocusNet在22个器官中的19个器官中获得了最佳的Dice得分,在22个器官中的19个器官中获得了最佳的95HD得分。就小器官的准确性而言,与其他基于深度学习的方法相比,我们的FocusNetv2在Dice得分上有5.59% 的提高。
表1 在我们收集的数据集上,通过不同比较方法得出的Dice得分系数(%)结果。阴影行表示这些器官被视为小器官。
深度学习方法的处理时间如表4所示,所有方法都使用相同的计算平台和NVIDIA TITAN Xp GPU进行测量。我们的骨干网络S-Net平均需要3.33秒来处理一次CT扫描。在添加SOL-Net和SOS-Net后,我们的Focus usNetv2需要4.36秒,仍然比DeepLabv3+快,但分割精度要高得多。我们的方法比AnatomyNet消耗更多的计算资源,但比DeepLabv3+少。考虑到放射治疗计划通常需要几个小时,并且不是一个时间敏感的任务,我们的方法可以在合理的时间内实现最佳性能。
表4在NVIDIA TITAN Xp GPU上进行一次ct扫描时,不同深度学习模型的平均推理时间
最后,我们进行一个实验显示autoencoder的对抗训练的有效性,FocusNetv2 w / AE起源在表6所示。autoencoder只是训练重建的真实形状的输入数据集。autoencoder的参数是固定的规范的培训细分网络类似于童et al .(2018),除了正规化只应用于小器官分割分支。随着autoencoder没有针对分割网络训练,其正则化能力是有限的。FocusNetv2 w / origin AE的性能比提出的FocusNetv2低了4.11%,这证明了我们的对抗autoencoder的有效性。
Robustness of SOL-Net and SOS-Net