医工互联

 找回密码
 注册[Register]

手机动态码快速登录

手机号快速登录

微信登录

微信扫一扫,快速登录

QQ登录

只需一步,快速开始

查看: 143|回复: 0
收起左侧

论文阅读笔记之手术器械分类的注意约束自适应核选择网络(SKA-ResNet)(一

[复制链接]

  离线 

发表于 2023-2-18 20:29:56 来自手机 | 显示全部楼层 |阅读模式 <
一、论文简介

1.1 论文链接

论文放在了我的百度网盘里,有需要的自取。
链接:https://pan.baidu.com/s/1V2WVqOFFXA_O34ENjskeWA
提取码:0rf6
1.2 论文基本信息

1.png

二、详细解读

2.1 摘要

计算机视觉(CV)技术在许多方面帮助医疗保健行业,如疾病诊断。然而,作为手术前后的关键环节,cv驱动技术对手术器械的库存工作还没有进行研究。为了降低手术器械丢失的风险和危害,我们提出了一种系统的手术器械分类研究,并引入了一种新的基于注意的深度神经网络SKA-ResNet,该网络主要由以下几个部分组成:(a)具有选择性核注意模块的特征提取器,自动调整神经元的接受域,增强学习后的表达;(b)以KL-divergence为约束的多尺度正则化器,利用特征映射之间的关系。该方法易于在一个阶段进行端到端训练,且额外的计算负担很少。此外,为了促进我们的研究,我们首次创建了一个新的手术器械数据集SID19(包含19种手术器械,共3800张图像)。实验结果表明,与现有模型相比,SKA-ResNet在SID19手术工具分类方面具有优越性。该方法的分类准确率达到97.703%,为外科手术工具的库存和识别研究提供了良好的支持。此外,我们的方法可以在四个具有挑战性的细粒度视觉分类数据集上实现最先进的性能。
2.2 介绍

2.2.1 研究意义

2020年,澳大利亚生产力委员会(Australian Productivity Commission)公布了一些医疗记录,显示43万名患者遭受了痛苦。在这些患者中,与医疗器械相关的医疗事故更加突出。据《每日邮报》报道,在短短一年内,这些拙劣的外科医生将医疗器械留在了至少23名中毒、感染或受伤的病人体内。因此,保证手术器械库存工作的可靠性具有十分重要的意义。在手术器械的清点工作中,医务人员主要负责清点手术器械的种类和数量。本文对外科器械的库存工作进行了一系列的研究工作,目的是准确地识别出手术进行前后的外科器械。这项工作不仅节省了人力资源,而且可以迅速识别手术器械是否遗漏,有利于防止继发性感染或致命医疗事故。
2.2.2 数据集

考虑了阑尾切除、胆囊切除、剖宫产手术器械包中的19类手术器械(包括爱丽丝钳、不同尺寸止血钳、椭圆形钳、吸力头、四种钩、针夹、布钳、长短齿钳、线剪、组织剪、肠板等)作为创建的手术器械数据集(标记为SID19)的原材料,共有19张手术器械,3800张图片。
2.2.3 问题难点

在SID19数据集中,存在某些属于细粒度类的外科工具,它们具有非常微妙的差异,难以相互区分。其中,手术钳和手术剪刀都包含几个子类,即细粒度类。手术钳的类别包括Alice钳、不同尺寸的止血钳、椭圆形钳、长短牙钳、布钳。手术剪刀的种类包括线剪、组织剪等。这些子类别中的对象通常具有较大的类内差异和较小的类间差异,给识别任务带来了困难。例如,下图显示了两种不同状态、视图和角度的钳类:爱丽丝钳和阑尾钳。爱丽丝钳和阑尾钳的前端有微小的区别,阑尾钳的前端比爱丽丝钳的前端圆得多。因此,本文所提出的手术器械分类任务不同于常见的自然图像分类,揭示了细粒度视觉分类(FGVC)的独特特征,从而带来了额外的困难。
2.png

2.2.4 解决思路

本文提出了一个新的细粒度视觉分类框架,名为SKA-ResNet,以探索手术器械分类的有效性。该方法包括两个新的组成部分:一个是带有选择性核注意(SKA)模块的堆叠标准残块的特征提取器和一个多尺度正则化器来探索增强的中间特征图的关系。(后面会有详细介绍)
2.3 背景

2.3.1 计算机视觉在医疗保健领域的应用

今天的医疗保健行业非常依赖医学成像提供的精确诊断,医学成像与不同诊断技术(包括x射线、计算机断层扫描(CT)、磁共振成像(MRI)等)获得的数据一起工作。医学图像分析基于异质性病理图像,主要集中在疾病预防、预测、检测、诊断、筛选等方面。
2.3.2 细粒度图像分类

FGVC任务的研究工作主要沿着两个方向进行,即强监督学习和弱监督学习。其中,强监督学习方法将目标包围盒、部分标注信息和图像级别标签添加到训练网络中,学习目标特定的判别位置信息。然而,这种方法存在以下问题:(a)对原始图像进行标注需要大量的人力资源;(b)人类标注的信息有时并不准确。而弱监督学习网络只给出图像的类别进行分类。注意机制作为CV研究中最常用的方法,已被广泛应用于各种分类、检测和分割任务中,特别是在弱监督FGVC任务中。根据注意机制,信息特征被强化,而不太有用的特征被抑制。此外,FGVC中还引入了其他弱监督模型用于特征关系学习。
2.4 ResNet的网络架构

参考博客:详解深度学习之经典网络架构(六):ResNet 两代(ResNet v1和ResNet v2)
2.4.1 神经网络并不是越深越好

神经网络在反向传播过程中要不断地传播梯度,而当网络层数加深时,梯度在传播过程中会逐渐消失(假如采用Sigmoid函数,对于幅度为1的信号,每向后传递一层,梯度就衰减为原来的0.25,层数越多,衰减越厉害),因此导致无法对前面网络层的权重进行有效的调整。实验现象表明,在不断加神经网络的深度时,模型准确率会先上升然后达到饱和,再持续增加深度时则会导致准确率下降,示意图如下:
3.png

因此可以作这样一个假设:假设现有一个比较浅的网络(Shallow Net)已达到了饱和的准确率,这时在它后面再加上几个恒等映射层(Identity mapping,也即y=x,输出等于输入),这样就增加了网络的深度,并且起码误差不会增加,也就是说更深的网络不应该带来训练集上误差的上升。而这里提到的使用恒等映射直接将前一层输出传到后面的思想,便是著名深度残差网络ResNet的灵感来源。
2.4.2 ResNet v1

ResNet引入了残差网络结构(residual network),通过这种残差网络结构,可以把网络层弄的很深(据说已经达到了1000多层),并且最终的分类效果也非常好,残差网络的基本结构如下图所示。
4.png

假定某段神经网络的输入是x,期望输出是H(x),即H(x)是期望的复杂潜在映射,如果是要学习这样的模型,则训练难度会比较大;回想前面的假设,如果已经学习到较饱和的准确率(或者当发现下层的误差变大时),那么接下来的学习目标就转变为恒等映射的学习,也就是使输入x近似于输出H(x),以保持在后面的层次中不会造成精度下降。在上图的残差网络结构图中,通过“shortcut connections(捷径连接)”的方式,直接把输入x传到输出作为初始结果,输出结果为H(x)=F(x)+x,当F(x)=0时,那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相当于将学习目标改变了,不再是学习一个完整的输出,而是目标值H(X)和x的差值,也就是所谓的残差F(x) := H(x)-x,因此,后面的训练目标就是要将残差结果逼近于0,从而使准确率不会随着网络的加深而下降。这种残差跳跃式的结构,打破了传统的神经网络n-1层的输出只能给n层作为输入的惯例,使某一层的输出可以直接跨过几层作为后面某一层的输入,其意义在于为叠加多层网络而使得整个学习模型的错误率不下面感受一下34层的深度残差网络的结构图降反升的难题提供了新的方向。至此,神经网络的层数可以超越之前的约束,达到几十层、上百层甚至千层,为高级语义特征提取和分类提供了可行性。下面来感受一下34层的深度残差网络的结构图:
5.png

实线的Connection部分,表示通道相同,计算方式为H(x)=F(x)+x;虚线的Connection部分,表示通道不同,计算方式为H(x)=F(x)+Wx,其中W是卷积操作,用来调整x维度的。除了上面提到的两层残差学习单元,还有三层的残差学习单元,如下图所示。
6.png

两种结构分别针对ResNet34(左图)和ResNet50/101/152(右图),其目的主要就是为了降低参数,减少计算量。左图是两个3x3x256的卷积,参数数目: 3x3x256x256x2 = 1179648,右图是第一个1x1的卷积把256维通道降到64维,然后在最后通过1x1卷积恢复,整体上用的参数数目:1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632,右图的参数数量比左图减少了16.94倍。对于常规的ResNet,可以用于34层或者更少的网络中(左图);对于更深的网络(如101层),则使用右图,其目的是减少计算和参数量。如下图所示,实验表明深度残差网络的确解决了深度增加导致错误率上升的问题。
7.png

2.4.3 ResNet v2

ResNet v2由ResNet的作者在第二篇相关论文《Identity Mappings in Deep Residual Networks》中提出,ResNet v1和ResNet v2的网络结构对比如下:
8.png

其中weight指conv层,BN指Batch Normalization层,ReLU指激活层,addition指相加。ResNet v2的结构好的原因在于两点:1)反向传播基本符合假设,信息传递无阻碍;2)BN层作为pre-activation,起到了正则化的作用;ResNet V2 在每一层中都使用了 Batch Normalization,这样处理后,新的残差学习单元比以前更容易训练且泛化性更强。
2.5 SKA-ResNet的网络架构

2.5.1总体描述

SKA-ResNet网络由两个主要部分组成:(1)一个新的特征提取器(feature extractor),它由堆叠的标准残差块和选择性核注意(SKA)模块组成,无需额外的注意网络,即可为要识别的区域提取信息特征图。(2)多尺度正则化器,以特征图与图像之间的关系为约束,学习不同细粒度类别之间的关系。与现有的专注于附加注意力网络的基于注意力的方法不同,本文方法以分散的方式将轻量级的SKA模块嵌入到标准残留块中。此外,不同的特征图和图像之间的关系利用多尺度正则化,以鲁棒的细粒度特征表示。整个网络仅仅依靠图像级别的标签进行端到端训练。
9.png

2.5.2 SKA模块

10.png

在特征提取阶段,引入了轻量级SKA模块,如上图所示。特征提取器通过将SKA模块嵌入到ResNet的堆叠标准残差块中,自动定位识别区域并增强相应的特征图。SKA模块的操作可以分为Divide, Fuse和Aggregation三部分,下面以两个分支的SKA模块为例进行详细说明。
(1)Divide部分 :给定中间特征图X,首先将其发送到两个不同的卷积层,生成具有不同语义信息的两个特征图Y1和Y2。卷积层由卷积(Converlution)、批量标准化(Batch Normalization)和ReLU函数组成,这两个卷积层的卷积核大小分别为3x3 和5x5。需要注意的是,得到的两个feature map的大小与原始feature map X的大小相同。这个过程可以总结如下:
11.png

从前往后的三个变量分别表示为ReLU函数,批量标准化和卷积。
12.png

  参考博客:
Normalization
深度学习基础系列(七)| Batch Normalization
ReLU激活函数:简单之美
(2)Fuse部分 :为了使神经元能够根据刺激内容自适应地调整RF值的大小,采用了一个面向元素的求和门来整合来自两个分支的不同信息,生成混合特征图Y。然后,利用Global Average Pooling (全局平均池化)操作生成Y的全局信息,记为g。为了防止不同样本之间的系数大小存在偏差,在通道上对g进行了Normalization(归一化处理)。然后,将得到的全局特征向量发送到fc层(Full Connection Layer ,全连接层),再通过卷积层进行1x1的卷积操作,批量标准化和ReLU函数,同时降低g的维数以提高效率,得到全局特征向量g1。再将SGE模块嵌入到不同的分支中,分别生成具有空间群增强注意的Y1’和Y2’。这个过程可以总结如下:
13.png

公式(3)中的三个变量从前往后分别表示fc层、归一化和全局平均池化操作。公式(4)中的SGE指的是SGE模块的操作。
14.png



  • Pooling Layer:池化层,常见的的池化层有最大池化(max pooling)和平均池化(average pooling)两种,如下图所示。
    15.png

    池化层的作用:
    a.通过池化层可以减少空间信息的大小,提高运算效率;
    b.减少空间信息也就意味着减少参数,这也降低了overfit的风险;
    c.获得空间变换不变性(translation rotation scale invarance,平移旋转缩放的不变性);
  • Global Average Pooling:全局平均池化,主要是用来解决全连接的问题,可以减少参数数量,将最后一层的特征图进行整张图的一个均值池化,形成一个特征点,将这些特征点组成最后的特征向量,在softmax中进行计算。举个例子。假如,最后的一层的数据是10个6X6的特征图, 计算每张特征图所有像素点的均值,然后输出一个数据值,这样共输出10个数据值,组成一个1X10的特征向量,然后就可以送入softmax的分类中进行计算了。
    全连接与全局均值池化的对比:
    16.png

  • Full Connection Layer:全连接层,在整个卷积神经网络中起到分类器的作用,通过卷积、激活函数、池化等深度网络后,再经过全连接层对结果进行识别分类。假设原图片尺寸为9X9,在一系列的卷积、relu、池化操作后,得到尺寸被压缩为2X2的三张特征图。
    17.png

    将经过卷积、激活函数、池化后的结果串起来,如下图所示。
    18.png

    利用该模型进行结果识别时,根据模型训练得出来的权重,以及经过前面的卷积、激活函数、池化等网络计算出来的结果,进行加权求和,得到各个结果的预测值,然后将取值最大的作为识别结果(如下图,最后计算出来字母X的识别值为0.92,字母O的识别值为0.51,则结果判定为X),此外,全连接层也可以有多个。
    19.png

  • 1x1卷积:在 CNN 网络中,能够实现降维,减少 weights 参数数量,也能够实现升维,来拓宽 feature maps,在不改变 feature maps 的 size 的前提下,实现各通道之间的线性组合,实际上是通道像素之间的线性组合,后接非线性的激活函数,增加更多样的非线性特征。
参考博客:
pooling layer(池化层)介绍及作用
Global Average Pooling
卷积神经网络中的 “全连接层”
卷积神经网络CNN【5】FC全连接层
1x1卷积核的作用
(3)Aggregation部分
在全局特征向量g1上应用softmax算子来选择不同的信息RFs,这个可以看作是一种软注意机制。通过运算得到两个不同的信息特征向量v1和v2,通过用v1缩放Y1’和v2缩放Y2’,生成增强的特征图A和B。将两个分支的结果进行相加,得到最终的特征映射X’。这个过程可以总结如下:
20.png

其中,softmax表示softmax函数。
21.png



  • softmax函数:又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。
    22.png

参考博客:
一分钟理解softmax函数(超简单)
由于SKA模块是轻量级的,没有引入太多的计算量和参数,因此它可以轻松嵌入任何主流骨干网络。此外,该算法在细粒度视觉分类任务中学习信息特征图具有较高的效率。本文将SKA模块应用到ResNet的标准残差块中,构造了一个新颖高效的块,构成了特征提取器的核心。通过上述特征提取器,可以提取有信息的特征图。
23.png

2.5.3 多尺度正则化(Multi-scale regularizer)

24.png

中层特征图通常承载更精确的位置信息,而高层特征图则承载更有区别的语义信息。因此,采用简单的思想,从不同层提取的多尺度特征图组合成金字塔结构进行预测。如上图所示,设F3和F4分别为stage3和stage4的feature map,将它们提供给CBAM层,以加强语义信息,然后从最后一个全连接层和一个SoftMax函数得到三个预测分布,P3, P4和P,P对应于F4,为原始特征提取器输出的特征图,已知预测分布P3、P4和P,则分类损失函数可表示为:
25.png

Lc表示交叉熵损失,P*是真实的标签向量,C为类号,N为小批号。最后,通过定义的损失函数对整个模型进行优化:
26.png

超参数α用于平衡不同部分的贡献,其值设置为1。
2.6 实验结果

2.6.1 实现细节

在新提出的手术器械数据集SID19上进行了实验,其中有19个类,每个类有200张图像。训练集与测试集的比值是3:2。使用数据分片在SID19上进行分布式训练,在gpu上均匀划分数据。在数据处理阶段,对图像进行均值/标准差重标,进行rgb归一化处理。输入图像的大小被调整为256X256用于训练和测试。然后,对每个图像进行随机调整大小的裁剪,以获得224X224的尺寸。
此外,在训练和测试阶段采用随机水平翻转和垂直翻转。在SID19上训练了50个epoch,默认批大小设置为64。基础学习率设置为0.01 (VGGNet[37]为0.1),它在50个周期中衰减10个周期。由于resnext50的固定优化结构,参数基数被设置为32以生成32个群组增强的注意力地图。还原比r设为16。特别地,利用conv4_6和conv5_3之后的CBAM层生成用于ResNet50多尺度学习的增强特征图F3和F4。两个增强特征图的尺寸为28X28X1024和14X14X2028。然后通过两个不同的fc层生成相应的预测分布。采用top-1精度作为评价标准,采用交叉熵函数度量损耗。所有实验都是基于Python 3.6和PyTorch框架实现。
2.6.2 与其他模型对比

与轻量级注意模块的比较
为了公平比较,所有显示方法都采用基于统一ResNet50骨干网的多尺度正则化器实现,所有的注意模块都在最后一个BatchNorm层之后使用。
27.png

与基于注意的FGVC方法比较
28.png

29.png


来源:https://blog.csdn.net/m0_47121562/article/details/120731978
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!
您需要登录后才可以回帖 登录 | 注册[Register] 手机动态码快速登录 微信登录

本版积分规则

发布主题 快速回复 收藏帖子 返回列表 客服中心 搜索
简体中文 繁體中文 English 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french

QQ|RSS订阅|小黑屋|处罚记录|手机版|联系我们|Archiver|医工互联 |粤ICP备2021178090号 |网站地图

GMT+8, 2024-12-22 20:19 , Processed in 0.291958 second(s), 66 queries .

Powered by Discuz!

Copyright © 2001-2023, Discuz! Team.

快速回复 返回顶部 返回列表