图3:基本编码器块和基本解码器块的图示。左:基本编码块。右:基本解码器块。Input1、Input3:上一个块中的要素。Input2:对应编码块产生的特征。Output1,output3:特征,将输入到下一块中。Output2:特征,通过跳跃连接层送入对应的解码器块。 Base encoder network
我们的编码器网络是一个类似VGG的[34]网络,基本块由两个3D卷积层组成。根据[37]的说法,表示大小应该略微减小,以避免存在巨大压缩的瓶颈。因此,3×3×3的三维卷积层和2×2×2的最大池化层是构建我们的网络的首选。经过卷积后,接着是批次归一化层和RELU层。编码块产生两个输出,一个是下一个编码块的输入,另一个是对应的解码块的输入,以实现高级特征和低级特征的结合。共有四个编码块,输出通道数(Out_ch)分别为8、16、32和64。值得一提的是,在最终的编码块之后有一个单卷积层用于细化由编码块下采样的特征,其通道数为64。 Base decoder network
解码器网络的目的是将高层特征映射到目标通道。利用3D反卷积层对特征图进行上采样,然后,级联层在跳跃连接层的帮助下将这些特征与编码器的低层特征相结合。融合后,采用卷积层对这些特征图进行融合。解码器块的输出通道数分别为64、32、16和8。
最后,在最终的解码块之后是以Sigmoid为激活函数的卷积层,以产生最终的分割结果。 Loss function
受[38]提出的Dice系数可以有效解决前景和背景体素数量不平衡的启发,我们将Dice损耗作为网络的优化目标。我们将ground truth表示为G,P表示为预测结果。Dice损失的定义如下所示:
转移学习[40]利用一个强大的预先训练的网络作为特征提取器,是提高新系统性能的一种流行的技巧。因此,使用在ImageNet中预先训练的网络作为分割网络的编码器是自然图像中的常见操作[41,42]。然而,由于三维医学图像的复杂性和成像技术的多样性,目前还没有一个足够强大的三维预训练模型可以作为各种三维医学图像的初始特征提取器。特别是对于多模态磁共振成像,每种模态的图像都有自己独特的成像风格,很难得到一个可以一概而论的特征提取器。此外,通过多编码器单解码器网络的设计,可以提取互补信息和跨模态的相互依赖关系,而忽略特定模态的某些个体特征。为了解决这些问题,我们提出了一种称为自转移的初始化技巧来有效地初始化编码器,并充分挖掘不同模式MRI的特征。根据实验结果,基于多编码器的模型通过使用自迁移可以获得相当大的性能改善。
具体而言,模态特定模型可以有效地从单一模态数据中捕获个体信息特征,而多模态模型旨在从多模态数据集中获得相互依赖和互补的信息。因此,在多模态模型中,单个模态的一些单独特征可能被忽略。因此,我们建议自我转移充分挖掘模态特定特征。图5是自我转移的图示。**第一步是分别训练三种模态特定的编码器-解码器模型。然后,这些预先训练的编码器将被用作多模态模型的初始编码器。**与具有随机初始化的原始编码器相比,这些编码器具有更大的能力来从MRI的特定模态完全挖掘各个特征。同时,融合块和解码器可以有效地融合这些特征以获得用于最终预测的信息特征。我们将在下面的文章中设置几个实验来证明自转移可以增强分割系统。
Experiment and Comparations
Comparison with ground truth MMFNet的一些预测结果如图7和图8中的2D图像和3D图像所示。如图所示,虽然NPC的形状和大小各不相同,但MMFNet仍然可以准确地确定NPC的区域,并获得准确的肿瘤轮廓。通过对图7中2D图像的分析,MMFNet具有融合多模态MRI的能力,以减少由于邻近组织与NPC之间的强度相似而带来的混乱。MMFNet的平均DSC、平均ASD和平均HD值如表1所示。MMFNet的DSC=0.7238,平均ASD=2.07 mm,平均HD=18.31 mm。
Comparison with related works
表1报告了不同方法的平均DSC、平均ASD和平均HD值。不同方法的预测掩码如图9和图10所示,它们分别以2D和3D图像表示结果。通过综合分析这些结果,提出的MMFNet实际上具有以下特性:
(i)它直接融合3D MRI图像,而不是2D切片。因此,它可以有效地利用MRI相邻切片中的有意义信息来实现鼻咽癌分割。如表2所示,与基于2D图像的最佳方法(基于多模态patch的CNN)相比,MMFNet可使平均DSC、平均ASD和平均HD值分别提高0.1226、8.52 mm和81.19 mm。图10显示基于3D的方法比基于2D的方法具有更少的孤立区域(假阳性)。
(ii)通过融合多模态磁共振成像和多编码器网络对NPC进行分割。因此,它可以从不同形式的MRI中学习互补和相互依赖的特征,以便做出最终决定。此外,与输入级融合网络和决策级融合网络相比,层级融合网络(包括MMFNet)能够有效地提取不同模式磁共振成像的信息特征,融合低层特征和高层特征。
(iii)使用融合块融合来自不同MRI模式的低层特征,并准备这些低层特征用于与高层特征的融合。因此,它可以更有效地融合来自不同来源的信息。它还使用自转移策略来初始化NetWerk。因此,它可以激励编码器从特定模态的MRI中充分挖掘有意义的特征。并最终将基于多编码器的网络(合并编码器的特征)在平均DSC、平均ASD和平均HD上分别提高了0.264、1.10 mm和11.88 mm。
在这一小节中,我们设置了广泛的消融实验,以展示我们提出的融合块和自转移的有效性。基线是基于多编码器的网络(合并编码器的功能),它为每个通道设置单独的编码器,并将合并的功能直接馈送到单个解码器。 The design for 3D-CBAM 基于MMFNet的3D-CBAM设计是3D-CBAM的一个简化版本,它在通道注意模块中使用共享的MLP,同时使用最大池化输出和平均池化输出来获得通道关注权重和空间关注权重。接下来,针对不同的全局特征,将单个共享MLP修改为多个MLP。之后,我们设置了几个实验来寻找添加std-pooling输出的最佳选择。
根据表2的结果,3D-CBAM的最佳设计是在通道注意块中使用多个MLP,并且在通道注意块和空间注意块中都使用std-pooling。利用std-pooling输出可以提供更充分的3D图像的全局信息,并且多个MLP的设置适合于处理具有不同分布的多个特征(std-pooling、max-pooling和average-pooling的输出)。
图11显示了空间注意力系数的一些例子。我们可以看到,在训练阶段的开始,几个位置可能会开火,然后能量将在ROI上慢慢积累,从而减少对假阳性的关注。 The contribution of self-transfer 在设置多个实验寻找3D-CBAM的最佳设计后,我们实现了对这些模型的自迁移,以考察其有效性。我们首先训练了三个特定于通道的编解码器网络。然后,这些预先训练好的编码器将作为多个具有不同融合块的多模态网络的初始特征提取器。
表2中的结果表明,利用自迁移可以刺激编码器从MRI中捕获更多有意义的鼻咽癌分割特征。与没有自迁移的方法相比,本文实现的所有具有自迁移的方法在评价指标方面都有更好的性能。因此,自迁移是基于多编码器的网络实现基于多模态MRI的鼻咽癌分割的一种很好的策略。 The choice of MRI 在论证了MMFNet的有效性之后,我们又设置了几个额外的实验来寻找MRI的最佳选择。我们设置了三个带有两个编码器的MMFNet,以显示仅基于两种MRI模式的方法的结果。
如表2所示,我们得出的结论是,融合所有形式的MRI(TI、T2和CET1)可以获得最好的结果。不同形式的MRI对不同的组织有不同的反应。将所有MRI结合起来,获得互补和相互依赖的信息,对鼻咽癌分割具有重要意义。
MMFNet的一些典型预测结果如图12所示。值得一提的是,与放射科医生手动标记相比,我们提出的网络具有极强的时间友好性。具体地说,我们提出的方法只需要大约9秒就可以实现对患者的鼻咽癌勾画,而经验丰富的放射科医生需要10到20分钟才能完成。
Conclusion