在线
胃癌病理切片(识别)、结肠镜图像(息肉检测、分割),需者自取。
链接:https://pan.baidu.com/s/1Bx0YeFtFVvdQ0uRcRTX8-A
提取码:data
在写这篇笔记时,介绍的论文中使用的胃癌图像数据是未开源的。下面这些网站可以找到一些常用的数据集,外网下载较慢/需登录/购买等情况,可以在某宝找代下。
https://www.cancerimagingarchive.net/nbia-search/
https://www.datasetlist.com/
https://paperswithcode.com/datasets
https://www.kaggle.com/datasets
https://www.marsbigdata.com/dataset
https://search.crossref.org/
————————————————————————————————————
开学后拿到的第一篇文章,是关于利用CNN进行胃癌检测的,题目是《Application of artificial intelligence using a convolutional neural
network for detecting gastric cancer in endoscopic images》 。
这是基于日本胃癌发生情况的一篇AI医学文章,发表于2018年。
在人工智能+神经网络+深度学习极大改善多个医疗领域中的图像诊断的大背景下,这是首篇利用CNN进行胃镜图像胃癌检测的文章。
方法:采用的网络模型是 Single Shot MultiBox Detector ,简称 SSD 。文中明确指出,没有对该模型进行算法上的修改;
数据:训练集和测试集分别包含 13584 13584 13584 张和 2296 2296 2296 张胃癌内窥镜图像,其中测试集的图像是从 69 69 69 名病人上连续采集得到的,共有 77 77 77 类胃癌病变;
结果:
CNN仅用了 47 s 47s 47s 来诊断 2296 2296 2296 张测试图像;
CNN正确识别了 77 77 77 类胃癌病变中的 71 71 71 类,达到了整体 92.2 % = 71 77 92.2\%=\frac{71}{77} 92.2%=7771 的灵敏度;
除此还有 161 161 161 类非癌性病变被CNN诊断为癌性(即假阳性),达到 30.6 % = 71 71 + 161 30.6\%=\frac{71}{71+161} 30.6%=71+16171的 P P V PPV PPV;
直径大于等于 6 m m 6mm 6mm 的 71 71 71 类病变中的 70 70 70 类以及扩散性胃癌,均被 CNN 正确检测;
被CNN遗漏的病变类型均为较浅病变或分化型粘膜内癌症,很难与胃炎区分开,接近一半的假正例均为伴有色调的改变或不规则粘膜表面的胃炎。
结论:基于SSD的CNN胃癌检测系统,能在较短时间内诊断大量内窥镜图片的胃癌检测,从而减轻内窥镜医师的压力。
1. 构建数据
1.1 训练集
文中提到了选择图像的标准是标准白光图像、使用靛蓝胭脂红喷雾的染色内窥镜检查图像以及窄带成像(NBI),但任何被放大的图像以及由于较少的空气吹入、活检后出血、光晕、模糊、散焦或粘液而导致的质量差的图像不被选择。经过筛选最后得到了 13584 13584 13584 张胃癌内窥镜图像,由人工进行标记。在这些图像中:
每张图像至少显示了一个胃癌病变;
针对同一病变包含了多个图像,以展示角度、距离和胃壁扩展等的差异。
1.2 测试集
为评估构建的CNN的性能,作者准备了一个独立测试集,通过对 69 69 69 例病人连续采集得到,一共包含了 77 77 77 类胃癌病变,其中 62 62 62 例存在一种胃癌病变, 6 6 6 例存在两种胃癌病变, 1 1 1 例存在三种胃癌病变,在采集图像的过程中仅保留了标准白光图像,而去掉了染色内窥镜图像、NBI和其他质量较差的图像,最终得到的测试集含有 2296 2296 2296 张图像,对 69 69 69 例病人大概每例有 18 − 69 18-69 18−69 张图像。
2. SSD模型
为了构建基于人工智能的CNN诊断系统,作者采用了SSD模型(其含16层甚至更多),并且没有修改该模型的算法,直接进行沿用。训练、验证和测试CNN均是在 Caffe深度学习框架 下进行的。
由于需要令CNN的参数值与SSD兼容,作者对CNN的每一层都使用随机梯度下降算法进行了细调,总体学习率为 0.0001 0.0001 0.0001,并将每张图像大小调整为 330 × 330 330\times330 330×330 ,边界框也相应被调整以使CNN能够达到最优的分析效果。
————这篇文章整理完我就去看SSD,看不完的论文文 + 码不完的字字 + 我日益稀疏的头发发,暴风哭泣 ┭┮﹏┭┮
3. 度量标准
首先关于输出,当CNN从测试图像输入数据中检测到胃癌病变后,会输出一个名称——早期或晚期胃癌,以及它的位置,并以黄色矩形框的形式在输入的内窥镜图像上展现。
比如:
对于由多幅图像展现的同一病变而言,如果CNN在某一个图像中检测到胃癌病变,在其他图像中未检测到时,这样也被认为是真正例,比如;
由于胃癌的分界线有时不清晰,因此当CNN检测到部分胃癌
病变时,也被认为是真正例;
灵 敏 度 = 检 测 到 的 正 确 胃 癌 病 变 数 目 实 际 胃 癌 病 变 数 目 灵敏度=\frac{检测到的正确胃癌病变数目}{实际胃癌病变数目} 灵敏度=实际胃癌病变数目检测到的正确胃癌病变数目;
P P V = 检 测 到 的 正 确 胃 癌 病 变 数 目 被 C N N 诊 断 为 胃 癌 的 病 变 数 目 PPV=\frac{检测到的正确胃癌病变数目}{被CNN诊断为胃癌的病变数目} PPV=被CNN诊断为胃癌的病变数目检测到的正确胃癌病变数目。
4. 结果分析
4.1 病例及病变特征
对 2296 2296 2296 张测试图像的检测结果为将其中的 714 714 714 张诊断为癌症,大约 31.1 % 31.1\% 31.1%,文中列举了测试集中使用的病变特征和 69 69 69 位病例的关系,如粘膜萎缩的程度、除胃癌外的其他病变、胃癌的类型等等。
4.2 灵敏度及PPV
CNN仅耗时 47 s 47s 47s 检测了 2296 2296 2296 张内窥镜图像,正确识别了 77 77 77 类胃癌病变中的 71 71 71 类,灵敏度为 92.2 % = 71 77 92.2\%=\frac{71}{77} 92.2%=7771 ,有 161 161 161 类非癌性病变被CNN诊断为癌性,达到 30.6 % = 71 71 + 161 30.6\%=\frac{71}{71+161} 30.6%=71+16171的 P P V PPV PPV。
灵敏度
表2展示了肿瘤大小和深度对敏感度的影响:
被CNN遗漏的胃癌病变有六类,如下图所示。其中有五类的肿瘤大小都是小于 5 m m 5mm 5mm 的,这六类都是较浅的病变或者分化型粘膜内癌症,很难和胃炎区分开,即便是对经验丰富的内窥镜医师而言,从而影响到诊断系统的灵敏度,但同时也能够看出,CNN可以完全正确的识别所有扩散性癌症。
PPV
CNN将 161 161 161 例非癌性的病变诊断为了胃癌,主要原因有两个。
胃炎:在这 161 161 161 例中,有接近一半是伴有色调改变或不规则粘膜表面的胃炎。
正常组织:CNN将一些正常结构如幽门、胃角等识别为胃癌。
如下图所示,a-c为胃炎,d为正常组织。
文章在讨论部分提到,对胃上皮肿瘤进行无内窥镜检查的胃活检,一般PPV都非常低,大约在 3.2 − 5.6 % 3.2-5.6\% 3.2−5.6%,考虑到内镜医师的PPV通常也非常低,但在临床实践中,假阴性的问题要比假阳性更严重,因此该CNN诊断系统达到的 30.6 % 30.6\% 30.6% PPV在临床上是可以接受的。如果CNN能够更系统地了解正常的解剖结构以及各种良性病变,那么胃癌检测的PPV将来将进一步提高。
5. 意义
首篇使用CNN方法进行胃镜图片胃癌检测的文章,并且达到 92.2 % 92.2\% 92.2% 的敏感性;
仅耗时 47 s 47s 47s 检测了 2296 2296 2296 张内窥镜图像,速度快,能在短时间内诊断较多的内镜图像,可以减轻内镜医师的压力;
该诊断系统可以线上执行,从而解决偏移及农村地区和发展中国家内镜医师不足的问题。
6. 局限性
训练集和测试集都只用了高质量的内镜图像,若加入质量较低的,CNN也许会产生错误识别;
未进行图像数量和CNN准确性之间的研究;
测试集中仅包含胃癌内窥镜图像,没有测试其他的内镜图像,然而在内窥镜图像研究中胃癌出现的频率是非常低的;
检测中出现的 161 161 161 例假阳性并未得到组织学的证实,因此可能存在隐匿性癌症病变;
训练集和测试集中的图像均由一位内镜医师进行手动标记,可能存在错误;
没有将CNN的准确性和内镜医师进行对比;
测试图像均来自于一种内窥镜设备和内窥镜视频系统设备,没有包括从其他内窥镜设备获得的图像。
7. 总结
总感觉因为数据集的原因,CNN能够达到的灵敏度可能存在点问题。。。
来源:https://blog.csdn.net/weixin_41936775/article/details/115323965
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!