离线
小罗碎碎念
前两天身体不太舒服,所以停更了两天,不过也正好趁这段时间复盘了一下前面几次更新给自己带来的变化——确实能学到很多东西,但是也很容易因为一下子接受太多的东西而陷入自我否定中。我认为这是一种好事,意味着自己能够不断思考,并且只要做好记录,那就能尽可能把学到的东西利用起来!
从本期开始,推荐的文章将会带有一定的地域特性——作者机构位于北京。因为无论下一步怎么安排,这个地区的学者都是我想好好了解一下的。
好的,进入正题,本期推荐的文章是2022年4月发表在《Modern Pathology》上的一篇文章——Assessment of deep learning assistance for the pathological diagnosis of gastric cancer ,即**评估深度学习对胃癌病理诊断的辅助作用 **。
作者单位
中国人民解放军总医院病理科,中国北京 100853。
清华大学交叉信息科学研究院 ,中国北京 100084。
北京大学第一医院生物统计部 ,中国北京 100102。
华北科技学院附属医院皮肤科,中国唐山 063000。
中国人民解放军总医院医学大数据中心,北京 100853。
首都医科大学附属北京世纪坛医院病理科,中国北京 100038。
中国检验检疫科学研究院,中国北京 100176。
中国人民解放军总医院皮肤科,中国北京 100853。
数据&代码
作者来自清华大学。
项目链接如下:https://github.com/ThoroughImages/ClinicalPath
全文预览
本文作者开展了一项研究,以评估深度学习(DL)辅助病理学家诊断胃癌的情况。以往的研究侧重于比较病理学家和算法的性能,但**本研究旨在评估 DL 与病理学家专业知识的结合 **。
16 位经委员会认证的病理学家在有或没有 DL 辅助的情况下对总共 110 张胃标本的全切片图像(WSI)进行了解读。结果表明,与无DL辅助的病理学家相比,有DL辅助的病理学家在检测胃癌方面获得了更高的接收者操作特征曲线下面积(ROC-AUC)和更高的灵敏度 。在特异性方面没有明显差异。
此外,在 DL 协助下,每个 WSI 的平均审查时间更短 。该研究表明,DL 辅助可提高病理学家诊断胃癌的准确性和效率。
主要观点
以往的研究侧重于病理学家与算法的比较,但本研究评估了深度学习(DL)与病理学家专业知识的结合。
16 位病理学家在有或没有深度学习辅助的情况下对 110 张胃标本的全切片图像(WSI)进行了解读。
与无DL辅助的病理学家相比,有DL辅助的病理学家在检测胃癌方面获得了更高的接收器操作特征曲线下面积(ROC-AUC)和更高的灵敏度。
在特异性方面没有观察到明显差异。
在 DL 协助下,每个 WSI 的平均审查时间更短。
DL 辅助提高了病理学家诊断胃癌的准确性和效率。
一、引言
胃肠道癌是全球第三大常见癌症相关死亡原因,在中国排名第二 [1-3]。
据估计,全球每年有超过100万例胃肠道癌新发病例[3]。胃部标本的组织病理学评估对于临床管理至关重要,这需要经验丰富的病理学家,并且耗时较长。然而,全球范围内病理学家短缺。据报道,中国缺少9万名病理学家,许多非洲国家的短缺情况更为严重 [4,5]。西方国家也面临类似问题,原因是病理学家退休人数增加[6,7]。
人工智能,特别是深度学习算法,在多个领域已经显示出比人类病理学家更好的或者相媲美的性能,这些领域使用的是苏木精和伊红(H&E)染色的全切片图像(WSIs)[8-10]。Ehteshami等人[8]的研究表明,深度学习在检测乳腺癌淋巴结转移方面比11名病理学家组成的专家组表现更好 。
最近的研究显示,深度学习在诊断胃肠道癌[11]、肺癌[12]、前列腺癌[13,14]以及其他疾病[15,16]中具有较高的敏感性和特异性。我们开发了一个用于胃肠道癌检测的深度学习算法,在**3212张由不同扫描仪扫描 **的真实世界WSIs中,该算法的敏感性接近100%,特异性为80.6%[17]。
在一项内部检查中,该算法在解释100张WSIs方面的表现与12名病理学家相当[17]。然而,我们的研究以及之前的研究主要集中在病理学家与算法的比较上,而不是它们的结合 [8,9,17]。一个准确的深度学习算法不会取代病理学家的广度和上下文知识。相反,只有通过**将其整合到临床环境中,算法的优势才能得到充分发挥 **[18]。
基于上述考虑,我们进行了一项读者研究,评估了病理学家在深度学习辅助下对胃部标本WSIs的解读性能。
二、材料与方法
2-1:病例入组
从2019年7月1日至2020年12月31日,中国人民解放军总医院(PLAGH)根据病理报告共选择了110张胃镜切片。在这些样本中,60张为良性,50张为恶性,这些样本基本上代表了日常工作中遇到的全部胃镜样本(表1)。
这110张胃镜切片来自于110个独立的病例。所有样本均为活检样本,因为手术样本通常表明为恶性肿瘤,这可能会影响病理学家的判断。
2-2:参考标准诊断
对于110张切片,每个切片都建立了参考金标准诊断 。来自中国人民解放军总医院(PLAGH)的三名资深病理学家独立审查了玻璃切片,并对每个病例做出了诊断。对于意见不一致的病例,三名专家共同审查了切片,包括免疫组织化学,使用多头显微镜一起达成共识。
切片被扫描成全切片图像(WSIs),使用**KF-PRO-005扫描仪 **(每个像素0.238 μm × 0.238 μm)。结果的WSIs逐个检查以确保图像质量。失去焦距或组织缺失的WSIs被重新扫描。
官网如下:https://digitcells.com/hardware/
2-3:病理学家
共有来自12家不同医院的16名认证解剖病理学家参与了这项研究 。他们既不是测试集入组的一部分,也没有参与参考标准诊断的确立。他们的解剖病理学经验从6年到20年不等。由于大多数病理学家没有在深度学习辅助下审查WSIs的经验,所以在评估研究之前的一个月内,他们阅读了不超过50张WSIs,以熟悉阅读系统 。
所有病理学家都是自愿参与的,并且理解并同意这项研究的基本原则和目的。
2-4:深度学习算法
在我们的前期工作中[17],我们使用了DeepLab v3架构的卷积神经网络来进行胃肠道癌检测。深度学习算法使用2123张带有像素级注释的H&E染色WSIs进行训练,并在一个真实世界的测试数据集上取得了99.6%的敏感性和80.6%的平均特异性,该数据集包含3212张由三种扫描仪数字化扫描的WSIs。
算法的泛化能力进一步通过另外两家医疗中心的1582张WSIs进行了测试。深度学习算法能够自动输出像素级的恶性概率,这些概率被整合到切片级别的预测中 。
2-5:研究设计
进行了一项完全交叉的**多读者多病例(MRMC)研究 **,以评估深度学习在病理学家诊断胃部病变中的辅助作用。总共110张WSIs(50张恶性,60张良性)由16名认证解剖病理学家在深度学习辅助下或无辅助下进行解读,之间有5周的洗脱期(图1)。
为了减轻可能在解读测试集的开始与结束时性能差异的潜在偏见,110张WSIs被分为20张WSIs的块(最后一个块有10张WSIs),每个块包含大致相同比例的良性WSIs和恶性WSIs,但顺序是随机的。
此外,为了建立审查WSIs的熟悉度,每个顺序都以审查5张WSIs开始。16名病理学家被随机分为两组,其中一组首先(顺序1)使用深度学习辅助,另一组首先(顺序2)不使用深度学习辅助。无论是哪种顺序,解读的WSIs是相同的;唯一的区别是有无深度学习辅助。
2-6:样本量
我们使用“用于诊断研究的多读者和单读者样本量程序”(可在https://perception.lab.uiowa.edu/power-sample-size-estimation 获取),该程序基于Hillis、Obuchowski和Berbaum的方法计算了样本量。
2-7:深度学习辅助下的评审
在评估研究中,当病理学家审阅WSIs时,模式(带或不带深度学习辅助)每隔20张WSI间隔切换一次 。
对于带深度学习辅助的WSIs,一个热图可以通过按下键盘上的空格键开启或关闭,热图会标记WSI上可疑的恶性区域。对于没有辅助的WSIs,只显示WSI。
参与者通过点击屏幕上的按钮提供诊断(补充图S1)。
WSIs在一个13.3英寸的2560*1600 LED显示器(Apple MacBook Pro 13.3)上展示。
2-8:WSI评审时间
为了尽可能模拟临床工作流程,16名病理学家被指示以自我控制的节奏评估110张WSIs。对于每张WSIs,从在查看器中打开WSIs到最终诊断的时间由一个后台程序记录 。病理学家可以在测试期间休息,这段时间不计入总时间。
2-9:统计分析
病理学家被要求对每张WSIs提供四种不同的诊断之一(恶性/可能恶性/可能良性/良性) ,对应于从1到4的“怀疑评分”,这些评分用于构建ROC曲线。我们**根据读者的怀疑评分分析平均AUC **,这是一种统计上有效的方法,用于评估癌症和非癌症性能指标合并成一个单一的测量。
这些分析是根据Obuchowski & Rockette的方法,结合Hillis对自由度的调整,使用混合效应模型生成的。
Obuchowski & Rockette方法
奥布霍夫斯基和罗凯特法是一种**评估诊断测试或分类器准确性的统计方法 。该方法 以接收者操作特征曲线(ROC)为基础 **,接收者操作特征曲线是显示检验或分类器诊断能力的图形。
要理解 Obuchowski 和 Rockette 方法,首先要了解 ROC 曲线的概念。
ROC 曲线是诊断检测或分类器不同阈值的真阳性率(灵敏度)与假阳性率(1 - 特异性)的对比图 。真阳性率是检验或分类器正确识别的实际阳性病例的比例。假阳性率是实际阴性病例中被检验或分类器错误识别为阳性病例的比例。真阳性率高而假阳性率低的检验或分类器被认为更准确 。
Obuchowski 和 Rockette 方法是一种**根据 ROC 曲线比较两个或多个诊断检测或分类器准确性 **的方法。它包括计算每个检验或分类器的 ROC 曲线下面积(AUC),然后比较 AUC,以确定哪个检验或分类器更准确。
AUC 是测试或分类器整体准确性的衡量标准,0.5 表示不准确,1 表示完全准确 。AUC 较高的测试或分类器比 AUC 较低的测试或分类器更准确。
在这些模型中,病理学家和WSIs被视为随机效应,辅助模式和会话(顺序1或顺序2)被视为固定效应。在分析中使用了梯形/Wilcoxon曲线拟合方法和Jackknife协方差估计方法。
为了比较两种会话(带深度学习辅助和不带深度学习辅助)之间的敏感性和特异性,实施了一个二进制版本的MRMC分析,以得到P值。计算了每位病理学家在每种会话中每个WSIs的平均评审时间,并**使用配对t检验来得到两种会话之间差异的P值 **。
所有其他统计分析均在统计计算环境R 4.0和**SAS 9.4 **中进行。对于多重分析没有进行统计调整。
三、结果
3-1:病理学家带或不带辅助的性能
病理学家将每张WSIs标记为恶性、可能恶性、可能良性或良性(补充图S1)。
结果被拟合到每个病理学家带或不带深度学习辅助的ROC曲线中(梯形/Wilcoxon方法)。通过ROC-AUC评估病理学家的表现。带和不带深度学习辅助的病理学家的平均AUC分别为0.911和0.863(P = 0.003,95%置信区间[CI]: 0.018–0.079)(图2A和表2),
这表明深度学习辅助确实提高了病理学家的诊断性能。每位病理学家带或不带辅助的AUC值在补充表S1中呈现。
根据病理学家的诊断,恶性和可能恶性被聚类为胃癌 ,良性和可能良性被聚类为非癌 。在二元分类层面上,没有和有深度学习辅助的病理学家的平均敏感性分别为82.75%和90.63%(P = 0.010,95% CI: 2.09–13.66%)。没有和有深度学习辅助的病理学家的平均特异性分别为79.90%和78.23%(P = 0.468,95% CI: -6.37–3.04%)(图2B)。
上述结果的总结见表2,每位病理学家的敏感性和特异性分别见补充表S2和S3。
我们进一步分析了不同辅助模式之间每张WSIs的准确性变化。对于难度较小的病例,深度学习对准确性提高的影响有限,而对于诊断不确定或小面积恶性区域可能被忽略的病例,深度学习可以显著提高准确性 。
图3展示了三个代表性示例,在这些示例中,深度学习辅助后病理学家的准确性显著提高。
如图3A所示,这是一例**胃高级别上皮内瘤变 **,16名病理学家中有4名将其诊断为可能良性。深度学习算法突出显示怀疑恶性区域后,这4名病理学家将诊断改为可能恶性(2名病理学家)或恶性(2名病理学家)。该病例的准确性从75%提高到了100%。
如图3B、C所示,小面积恶性区域或分散的恶性肿瘤细胞可能容易被忽略 。深度学习算法标记可疑区域后,提示病理学家进行仔细重新评估,这两个病例的准确性分别从62.5%提高到93.75%和从37.5%提高到87.5%。
此外,我们评估了深度学习辅助与病理学家经验的相关性。我们发现,经验较少的病理学家倾向于从深度学习辅助中获得更大的准确性提高 (图4)。
为了更好地了解他们对深度学习系统的看法,我们向病理学家发放了一份问卷进行调查。结果表明,大多数病理学家持乐观态度,并愿意在未来工作中使用深度学习系统(图5)。
3-2:WSI评审效率
16名病理学家在没有和有深度学习辅助下审查每张WSIs的平均时间分别为26.37 ± 5.22秒(秒)和22.68 ± 4.03秒(P = 0.033)(图2C)。
我们进一步评估了不同辅助模式之间每位病理学家评审时间的变化。深度学习辅助缩短了12名病理学家的评审时间。每位病理学家节省的评审时间从1.2秒到12.84秒不等,在12名病理学家中。详细结果在补充表S4中提供。
四、讨论
研究表明,深度学习在不同病理诊断任务中能够实现高精度[19-22]。值得注意的是,深度学习的完全自动化(没有任何人类病理学家的支持)并不是目标 [10,23,24],即使是最优的算法也需要融入现有的临床工作流程,以改善患者护理。因此,我们设计了一个完全交叉的MRMC研究,以探讨深度学习辅助对病理学家解读胃部标本的数字切片的影响。我们的结果表明,深度学习辅助确实提高了病理学家识别胃癌的准确性和效率。
关于准确性,我们首先评估了有无深度学习辅助的病理学家的AUC,结果表明深度学习辅助可以提高诊断准确性。然后,我们评估了两种模式之间的敏感性和特异性。深度学习辅助显著提高了胃癌检测的敏感性,但未提高特异性。在本评估研究中实现的算法在3212张真实世界WSIs上达到了接近100%的敏感性和80.6%的特异性[17]。
算法实现高敏感性通常以降低特异性为代价 [25,26]。这可能是深度学习辅助未能提高病理学家特异性的主要原因 。在胃WSIs的病理诊断中,未能诊断(假阴性结果)的危害大于做出胃癌(假阳性结果)时的情况 。在临床工作流程中,病理学家了解假阴性和假阳性对患者的意义,允许他们优化诊断操作点并生成不同的概率热图以满足临床需求,有时甚至个案基础上。
我们进一步分析了不同辅助模式之间每张WSIs准确性的变化。对于诊断不确定或小面积恶性区域的病例,深度学习可以显著提高诊断准确性。这种情况经常发生在病理学家匆忙阅读切片时,例如工作负担过重或当天最后一张切片。深度学习作为另一位病理学家的第二意见,不仅可以定位恶性区域,还可以为每个像素提供恶性概率,提醒病理学家重新审视潜在区域。
如图4所示,经验较少的病理学家往往从深度学习辅助中获得更大的准确性提高。这意味着经验较少的病理学家可能对自己的初步诊断信心不足,因此,如果初步诊断与深度学习算法的预测不一致,他们更有可能修改初步诊断。
尽管深度学习辅助显著提高了病理学家的平均敏感性,但它仍然低于算法的ROC,如图2B所示。
这一结果表明,病理学家和深度学习算法的组合并不一定超过仅算法本身 。这**主要是因为我们仅向病理学家提供了热图,而没有提供特定的切片级别概率 **,这生成了ROC。病理学家可能会根据自己的经验选择性地相信预测的恶性(热图)。尽管病理诊断中的观察者间和观察者内经验变异性存在[27,28],但我们的结果表明,深度学习辅助导致更可靠和一致的诊断,这可能会导致更好的治疗决策。
除了准确性提高之外,深度学习辅助还具有节省时间的好处。尽管每张WSIs的平均评审时间仅减少了不到4秒,但考虑到临床实践中大量切片的存在,这种累积效应可能更为显著 。此外,本研究中由病理学家评估的110张WSIs均为活检样本,而**手术标本会大大延长病理学家的评审时间,但不会延长深度学习算法的评审时间 **。我们假设对于手术标本,这种时间效益可能更为明显。
尽管16名病理学家中有12人在深度学习辅助下花费的评审时间少于没有辅助,但仍有4名病理学家的评审时间延长了。他们通常反映**热图分散了他们对病理诊断过程的注意力 (图5)。先前研究表明, 随着数字病理学经验的增加,深度学习提高效率的收益也会提高 **[29,30]。病理学家一旦习惯了深度学习系统的查看器界面,他们可能会花费更少的时间。时间效率的好处减轻了病理学家的负担,并使他们能够将更多的时间投入到困难的病例中。
我们的研究也存在一些局限性,主要源于评估研究作为模拟过程而非实际病理工作流程进行。病理学家评估的测试数据集富含胃癌病例,这与临床实践中遇到的混合病例无法直接比较 。在我们的研究中,每位病理学家都得到一个病例的WSI来做出诊断。在真实的临床环境中,病理学家可以访问额外的切片、额外的IHC染色或临床数据来做出最终诊断。评估集本身难度的内在差异将直接影响有无辅助的病理学家的诊断表现。本研究中使用的算法仅能从良性中检测恶性,而无法识别胃癌的病理亚型,这与临床管理和预后相关 。我们未来的研究将关注病理亚型的建立,使系统更具临床适用性。
总之,我们的研究表明,深度学习与人病理学家的结合有望提高胃癌诊断的准确性和效率。这项研究是对理解深度学习如何提高病理学家诊断的有用尝试,因此,它进一步推动了病理学家接受这项新技术。