"超声影像论文小结：自动检测标准切面成为医学图像领域研究热点"

Good · 发表于 2022-10-20 17:03:18

刚刚入坑医学图像领域的超声(UltraSound, US)影像方向，这是一个重要的临床辅助诊断工具。对于成千上万的视频帧，即使是非常有经验的超声学家也要花很长时间逐帧寻找标准切面，且不同的人检测的结果也存在差异。因此，使用CV技术对标准切面进行自动检测成为医学图像领域的研究热点之一。所谓自动检测，就是判断给定图像所属的标准切面类别(分类)，并对图中包含的组织结构(RoI)进行定位的过程。好的检测结果能为后续的自动生物测量、自动异常检测(automated detection of anomalies)等任务打下良好基础。此处对本周学习的论文进行小结。

Automatic Fetal Ultrasound Standard Plane Detection Using Knowledge Transferred Recurrent Neural Networks(T-RNN, CNN+LSTM, 2015)

背景
该文章首先对妇产科超声的三种标准切面：胎儿腹部标准切面(FASP)、胎儿颜面部标准切面(FFASP)和胎儿四心室标准切面(FFVSP)进行分类；然后在图中定位组织结构的具体位置，即确定感兴趣区域(RoI)；最后根据RoI的置信度得分，对一段视频序列的不同帧进行打分，从而找出视频中质量最高的那一帧，以便于医生分析。
方法
采用一个7层的小型CNN(上图中的J-CNN)做三分类，F7层输出值最大的即为当前图像类别，然后将对应的F6层特征向量作为LSTM网络的输入，这样每帧都能得到一个输出向量，将该输出向量依次进行softmax、求平均处理，所得到的score即为当前帧RoI的置信度得分，它代表当前帧的质量。具有最高得分的一帧就是要挑选的图像。
另外要补充一点，网络的训练样本并不是整张图片，而是一些滑动窗口(sliding window)，且LSTM的输入一定是F7值最大的滑动窗口对应的特征向量F6。可以看出，LSTM的输入不仅要求是三分类中的最大值，还要求是最大类别的多个RoI中的最大值(有点绕)。由于本文发表于2015年，跟Faster R-CNN同年，因此采用滑动窗口而不是anchor。
实验
使用accuracy (A), precision (P), recall (R)和F1 score作为评价指标，三种标准切面的结果如下表所示，在深度学习刚兴起的2015年，本文的结果应该是当时的SOTA吧。

Real-time Standard Scan Plane Detection and Localisation in Fetal Ultrasound using Fully Convolutional Neural Networks(实时，全卷积，弱监督定位，2016)

背景
对12种标准切面做分类，包括脑室、小脑、腹部、肾脏、冠状唇、正中面部轮廓、股骨、脊柱、左心室流出道、右心室流出道、三血管视图和心脏四腔视图，其中后四种属于心脏视图。并利用显著性图进行无监督定位，以获得胎儿组织的bounding box。
方法
1) 采用一个6层的全卷积网络进行13分类(12种标准切面+背景类)。与上篇论文相比，将后两层全连接层替换为2个1x1的卷积层和1个全局平均池化层(GAP)，从而使网络可以接受任意尺寸的输入图像，同时可以加速推理(号称可以跑到100+FPS)。在做视频回顾性检索时，先逐帧处理，每帧都能得到属于各类别的置信度，然后对每个类别，取置信度最高的那一帧。思考：分类任务可以天然地选取最佳帧？
2) 利用显著性图进行无监督定位。先链式求导C6层的每个像素点直到网络输入层，取梯度前10%的神经元进行反向传播，如此迭代训练直至收敛。用于测试时，在前向过程中取显著性图C6，该显著性图可作为定位的基础。
3) 定位后处理。获得显著性图之后，对该图依次进行：求绝对值图像、核大小25x25的高斯滤波、otsu阈值化，最后根据处理后图像的激活值计算一个最小bbox，该bbox即为RoI区域。
4) 数据处理。训练阶段在C5和C6层后使用了0.5的dropout，对前景类和背景类进行均匀采样，将图像降采样到225x273，并裁剪为225x225的正方形输入网络。此外，还做了一些数据增强，例如随机水平翻转、选择图像等。测试阶段不裁剪图像，直接把降采样的225x273分辨率图像作为输入。
实验
使用精度pc和召回率rc作为评价指标，12种标准切面的测试结果如下表所示，可见优于上一篇。

SonoNet: Real-Time Detection and Localisation of Fetal Standard Scan Planes in Freehand Ultrasound(2017)

背景
该篇论文的作者与上一篇相同，解决的问题也一样，是对上篇论文的改进。主要改进有两点：对比了不同宽度的网络，并使用了更宽的网络(注意除了smallnet增加的不是深度)，以及解释性更好的显著性图定位方法。另外，一些细节内容也介绍得更为详细。
方法
1) 数据预处理。共分为五步，第一步，从数据集中删除了彩色多普勒图像和同时包含胎儿多个位置的分割视图的图像和视频帧；第二步，移除标注；第三步，裁剪出一个224x288区域，其中包含大部分视野，但不包括供应商徽标和超声波控制指示器，然后减去均值除以标准差进行归一化；第四步，随机采样背景帧作为负样本；第五步，以训练集：测试集=8:2的比例划分数据集。
2) 网络结构仍然是全卷积的。
3) 显著性图的计算。在上篇前向传播的基础上，乘上了反向梯度值，作为测试时定位的基础。
4) 定位后处理。与上篇一样，只是将高斯核尺寸缩小为5x5。引入了专业知识(先验)，给定一张处理后的显著性图，股骨、脊柱和唇只在正响应的位置定位，四种心脏视图则只在负响应的位置定位，其他切面视图均在全局定位。个人认为这样做可以滤除一些误检。
实验
使用精度、召回率和F1score作为精度评价指标，也给出了不同结构网络的实时性测试结果。可见即使是宽度最大的SonoNet-64，其分类速度也达到70.4FPS，相当可观。当然加上定位后会慢不少，因为要重新计算显著性图(乘以梯度)，此外定位后处理步骤无法端到端推理，比较耗时。

Standard Plane Detection in 3D Fetal Ultrasound Using an Iterative Transformation Network(3D, ITN, 2018)

方法
本文的思想非常直接，利用迭代回归的方式学习3D体数据中2D标准切面的位置。首先建立3D坐标，上图(b)中的黑线为基准线，然后利用变换T随机初始化一个切面，不过初始切面也有限制条件：第一，切面中心点要在3D视图中心的60%区域内，不能过于靠近边缘；第二，其与xyz轴的夹角要在正负45度以内。接着开始从初始切面向GT标准切面迭代回归，回归参数分为平移和旋转两部分，且各自拥有权重，该权值可以看成变换的置信度。通过计算加权回归系数与GT之间的L2损失，以及置信度(权重)与GT的交叉熵损失，反向传播训练CNN，原文中CNN包括5个卷积层，迭代10次。
实验
本文的消融实验做得很丰富，对比了不同的变换方式，以及是否采用权重。

来源：https://zhuanlan.zhihu.com/p/163820136
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			注册[Register]

"超声影像论文小结：自动检测标准切面成为医学图像领域研究热点"

相关帖子

个人中心